1 스프레드시트에서 꼭 알아야 하지만, 감히 물어보지 못했던 것들
__몇 개의 샘플 데이터
__컨트롤 버튼으로 빠르게 이동
__수식과 데이터를 빠르게 복사
__셀 서식 선택
__선택하여 붙여넣기
__차트 삽입
__찾기 및 바꾸기
__값의 위치, 어떤 위치의 값을 다루는 수식
__VLOOKUP을 사용하여 데이터 합치기
__필터와 정렬
__피벗 테이블 사용
__배열 수식 사용
__해 찾기로 문제 풀기
__오픈솔버: 필요 없기를 바랬는데, 필요한 것
__정리
2 군집분석 1: K-평균을 사용하여 고객 기반 세분화
__여자 아이들은 여자 아이들과 춤을 추고, 남자 아이들은 발꿈치를 긁는다
__실제 적용: K-평균 군집화로 이메일 마케팅에서의 고객 분류
____제이 뱅 오도넛 와인 도매 상사
____최초의 데이터 셋
____측정할 대상 결정
____4개의 군집으로 시작
____유클리드 거리: 직선 거리 구하기
____모든 고객에 대한 거리와 군집 할당
____군집 중심점 계산
____결과 이해
____군집별 가장 많았던 거래 정보 얻기
____실루엣: 서로 다른 K 값이 치고받을 수 있도록 하는 좋은 방법
____5개의 군집은 어떤가?
____다섯 개의 군집에서 해 찾기
____5개 군집의 최고 거래 내용 보기
____5-평균 군집화에서 실루엣 계산
__k-중앙 군집화와 비대칭적인 거리 측정
____k-중앙 군집화의 사용
____더 적합한 거리 매트릭스 구하기
____이 모든 것을 엑셀에 집어 넣기
____5-중앙 군집법에서의 최고 거래 보기
__정리
3 나이브 베이즈: 바보이기에는 너무나 민첩한
__제품 이름을 맨드릴로 지으면 신호와 잡음을 동시에 얻는다
★ 요약 ★
아마존닷컴에서 평균 별점 5개로 독자들의 큰 호평을 받은 데이터 과학 입문서다. 누구나 사용하는 엑셀(Excel 프로그램을 이용해 데이터 과학과 비즈니스 분석의 복잡한 알고리즘을 한눈에 보이듯 알려준다. "빅데이터가 중요하고 우리 회사도 도입한다고 하던데... 그게 뭐지?"라고 막연해 하는 실무 담당자들이나 "데이터 과학이 무엇이며, 왜 중요한 걸까?"라며 새로이 공부를 시작해 보려는 사람들에게 큰 도움이 되는 책이다. 아울러, 이미 웬만한 빅데이터 책은 여러 권 보았지만 단순한 기술 활용에서 별다른 영감을 얻지 못하는 이들에게 "어떻게 하면 빅데이터에서 통찰을 이끌어낼 수 있는지?"에 대한 새로운 출발점을 제공한다. 어렵지 않은 엑셀 예제들로 시작해 R로 마무리하며, 데이터 과학을 유쾌하고 쉬우며 재미있게 이해할 수 있게 해주는 흔치 않은 책이다.
★ 이 책에서 다루는 내용 ★
■ 일반 선형 모델, 앙상블 모델, 나이브 베이즈 등을 사용한 인공지능
■ k-평균, 구상 k-평균, 그래프 모듈성 등을 사용한 군집화
■ 비선형 프로그래밍과 유전 알고리즘 등을 비롯한 최적화
■ 시계열 데이터 작업과, 지수 평활법을 사용한 예측 방법
■ 리스크를 정량화하기 위한 몬테카를로 시뮬레이션
■ 단일 차원, 다차원에서 이상점 탐지
■ 데이터 과학에 적합한 R 언어 탐구
★ 이 책의 대상 독자 ★
나는 이 책에 대한 전형적인 독자상(마케팅하는 사람들은 그것을 페르소나라고 부른다을 다음과 같이 설정하고 글을 썼다.
■ 마케팅부의 부팀장으로 고객들의 거래 데이터를 전략적으로 사용해 가격과 고객 세그먼트를 결정하고자 한다. 그런데 소프트웨어 개발자들이나 비싼 컨설턴트들이 사용해 보도록 권하는 접근법을 제대로 이해하고 있지 않다.
■ 수요 예측 분석가로 회사의 과거 판매 데이터가 단순한 다음 분기 계획보다 더 가치가 있다는 사실