1장 하둡 분산 파일 시스템: 데이터 가져오기와 내보내기
___개요
___하둡 셸 명령어를 사용해 데이터를 내보내고 HDFS로 데이터 가져오기
___분산 복사를 사용한 클러스터 간의 효율적인 데이터 이동
___스쿱을 사용해 데이터를 MySQL에서 HDFS로 가져오기
___스쿱을 사용해 데이터를 HDFS에서 MySQL로 내보내기
___MS-SQL 서버를 위한 스쿱 구성
___데이터를 HDFS에서 몽고DB로 내보내기
___데이터를 몽고DB에서 HDFS로 가져오기
___피그를 사용해 데이터를 HDFS에서 몽고DB로 내보내기
___그린플럼 외부 테이블에서의 HDFS 사용
___데이터를 HDFS로 적재하기 위한 플룸 사용
2장 HDFS
___개요
___HDFS에서 데이터 읽고 쓰기
___LZO를 사용한 데이터 압축
___시퀀스파일로 데이터 읽고 쓰기
___데이터 직렬화를 위한 아파치 에이브로 사용
___데이터 직렬화를 위한 아파치 스리프트 사용
___데이터 직렬화를 위한 프로토콜 버퍼 사용
___HDFS 복제 계수 설정
___HDFS 블록 크기 설정
3장 데이터 추출과 변환
___개요
___맵리듀스를 사용해 아파치 로그를 TSV 포맷으로 변환
___웹 서버 로그에서 봇 트래픽을 필터링하기 위한 아파치 피그 사용
___웹 서버 로그 데이터를 타임스탬프로 정렬하기 위한 아파치 피그 사용
___웹 서버 로그 데이터를 세션화하기 위한 아파치 피그 사용
___아파치 피그 기능 확장을 위한 파이썬 사용
___페이지 뷰를 계산하기 위한 맵리듀스와 보조 정렬 사용
___지리 이벤트 데이터를 정리하고 변환하기 위한 하이브와 파이썬 사용
___시계열 분석을 수행하기 위한 파이썬과 하둡 스트리밍 사용
_
★ 요약 ★
하둡(Hadoop과 하둡 에코시스템은 데이터 라이프사이클을 책임진다고 해도 과언이 아니다. 분명 하둡은 배우기가 수월하지 않은 학습 곡선이 존재하지만, 데이터 환경에 둘러 싸여 있다면 꼭 익혀야 할 가치가 있는 기술이다. 이 책은 하둡의 높은 학습 곡선을 조금이라도 해소하고, 실제 실무에서 접할 수 있는 간이 형태의 프로젝트 가이드를 보여준다. 따라하며 배울 수 있는 하둡을 활용한 빅데이터 분석 실무에 대한 좋은 참고서다.
★ 이 책에서 다루는 내용 ★
■ 데이터 ETL과 압축, 직렬화, 가져오기와 내보내기
■ 기본 및 고급 집계 분석
■ 그래프 분석
■ 기계 학습
■ 트러블슈팅과 디버깅
■ 확장성 있는 퍼시스턴스 사용
■ 클러스터 관리와 구성
★ 이 책의 대상 독자 ★
이 책에서는 하둡으로 해결할 수 있는 여러 형태의 실제 문제를 강조하기 위해 구체적인 코드 예제를 사용한다. 따라서 하둡과 관련 도구를사용해 개발자에게 친숙하도록 설계되었다. 하둡 초보자는 책의 설명을 통해 쉽게 배워볼 수 있으며 하둡 애플리케이션의 실제 사례를 경험할 수 있다. 경험이 있는 하둡 개발자는 많은 도구와 기술로 다양한 사고 전환의 기회를 접할 수 있으며, 익숙했던 하둡 프레임워크이지만 다시 명확하게 이해하는 계기가 될 것이다.
★ 이 책의 구성 ★
1장 하둡 분산 파일 시스템: 데이터 가져오기와 내보내기에서는 피그와 플룸(Flume, 스쿱(Sqoop 같은 도구의 도움으로 MySQL과 몽고디비(MongoDB, 그린플럼(Greenplum, MS-SQL 서버 같은 대중적인 데이터베이스 간의 데이터를 적재하거나 업로드하는 여러 접근법을 보여준다.
2장 HDFS는 HDFS에서 읽고 쓰는 것을 다룬다. 에이브로(Avro와 스리프트(Thrift, 프로토콜 버퍼(Protocol Buffers의 직렬화 라이브러리를 사용해서 보여준