아파치 하둡으로 총괄적인 데이터 관리 솔루션을 구축해보자
이 책을 통하여 아파치 하둡으로 총괄적인 데이터 관리 솔루션을 구축하는 일에 대한 전문가의 조언을 얻을 수 있다. 많은 소스를 활용하여 하둡 에코시스템의 다양한 요소들을 사용하는 방법을 설명하고,
그 요소들을 독자가 처한 개별 상황에서 완성형의 애플리케이션으로 조화롭게 통합해내기 위해 고려해야 할 아키텍처 요구 사항을 살펴보는 방법으로 이론과 실무를 동시에 다루고 있다.
하둡 애플리케이션에서 가장 일반적으로 사용되는 아키텍처의 상세한 예제가 풍부하게 제시되어 있다. 하둡 애플리케이션을 설계하거나 하둡을 기존 데이터 인프라스트럭처에 통합할 계획이 있다면, 아래 내용들로 구성된 이 책의 기술적 안내를 따라가는 것이 훌륭한 선택이 될 것이다.
- 하둡을 사용한 데이터 저장과 모델링에서 고려해야 할 사항
- 데이터를 시스템의 내/외부로 이동할 때 참고할 만한 최적 사례
- 맵리듀스, 스파크, 하이브를 포함한 데이터 프로세싱 프레임워크
- 중복 레코드 제거, 윈도잉 분석 사용 등 일반적인 하둡 프로세싱 패턴
- 하둡의 대용량 그래프 프로세싱을 위한 지라프, 그래프X, 그 외 다양한 툴
- 아파치 우지 같은 워크플로 오케스트레이션과 스케줄링 툴 활용법
- 아파치 스톰, 아파치 스파크 스트리밍, 아파치 플룸을 활용한 근접 실시간 스트림 프로세싱
- 클릭스트림 분석, 부정거래 탐지, 데이터 웨어하우스의 아키텍처 예제
[독자대상]
초중급
출판사 리뷰
‘빅데이터’는 정보 기술에 관련된 수많은 기사와 저널, 세미나에서 가장 많이 다뤄지고 있는 단어이며 최근에는 방송의 홍보 수단으로 이용될 만큼 일반인에게도 친숙한 단어다. 이와 관련하여 ‘하둡’은 기술 측면에서 빅데이터를 언급할 때 반드시 등장하는 중요한 키워드가 되고 있다.