도서상세보기

도서명 R을 활용한 머신러닝 : 데이터 준비부터 모델 조정, 평가, 빅데이터 작업까지 - 에이콘 데이터 과학 시리즈
저자 브레트 란츠
출판사 에이콘출판
출판일 2024-01-24
정가 48,000원
ISBN 9791161758145
수량

01장. 머신러닝 소개
__머신러닝의 기원
__머신러닝의 사용과 남용
____머신러닝 성공 사례
____머신러닝의 한계
____머신러닝의 윤리
__기계의 학습 방법
____데이터 저장소
____추상화
____일반화
____평가
__실전 머신러닝
____입력 데이터 타입
____머신러닝 알고리듬 형식
____입력 데이터와 알고리듬 매칭
__R을 이용한 머신러닝
____R 패키지 설치
____패키지 로딩과 언로딩
____RStudio 설치
____왜 R인가 왜 지금 R인가?
__요약

02장. 데이터의 관리와 이해
__R 데이터 구조
____벡터
____팩터
____리스트
____데이터 프레임
____행렬과 배열
__R을 이용한 데이터 관리
____데이터 구조 저장, 로드, 제거
____CSV 파일에서 데이터 가져오기와 저장하기
____Rstudio를 이용한 일반적 데이터 세트 형식 가져오기
__데이터 탐색과 이해
____데이터 구조 탐색
____수치 변수 탐색
______중심 경향 측정: 평균과 중앙값
______퍼짐 측정: 사분위수와 다섯 숫자 요약
______수치 변수 시각화: 상자그림
______수치 변수 시각화: 히스토그램
______수치 데이터의 이해: 균등 분포와 정규 분포
______퍼짐 측정: 분산과 표준 편차
____범주 특징 탐색
______중심 경향 측정: 최빈값
____특징 간의 관계 탐색
______관계 시각화: 산포도
______관계 관찰: 이원교차표
__요약

03장. 게으른 학습: 최근접 이웃을 사용한 분류
__최근접 이웃 분류의 이해
____k-NN 알고리듬
______거리로 유사도 측정
______적절한 k 선택
______k-NN 사용을 위한 데이터 준비
____k-NN 알고리듬이 게으른 이유
__예제: k-NN 알고리듬으로 유방암 진단
____단계 1: 데이터 수집
____단계 2: 데이터 탐색과 준비
______변환:
이 책에서 다루는 내용

- 머신러닝의 원신 데이터에서 구현까지의 엔드-투-엔드 과정 학습
- 최근접 이웃과 베이지안 기법으로 주요 결과 분류
- 결정트리, 규칙, 서포트 벡터 머신을 사용해 미래의 사건 예측
- 회귀기법으로 수치 데이터를 예측하고 금융 수치 추정
- 인공신경망으로 복잡한 프로세스 모델링
- tidyverse를 사용해 데이터를 준비, 변환, 정제
- 모델을 평가하고 성능을 향상
- R을 SQL 데이터베이스와 Spark, Hadoop, H2O, TensorFlow 등의 떠오르는 빅데이터 기술과 연결

이 책의 대상 독자

데이터에 접근하고 그 데이터를 활용하고자 하는 사업 분석가, 사회 과학자 등의 응용 분야 종사자를 대상으로 하는 책이다. 이미 머신러닝에 대해 약간 알고 있지만 R을 사용한 경험이 없을 수도 있고, 반대로 R에 대해 약간 알고 있지만 머신러닝은 처음이거나 아예 둘 다 처음일 수도 있다. 어떤 경우에도 이 책은 여러분을 빠르게 시작하게 해줄 것이다. 기본 수학과 프로그래밍 개념에 약간이라도 익숙하다면 도움이 되겠지만 사전 경험은 필요하지 않다. 필요한 것은 호기심뿐이다.

이 책의 구성

1장, ‘머신러닝 소개’에서는 머신 학습자(machine learner를 정의하고 구분해주는 용어와 개념을 살펴보고, 학습 작업을 적절한 알고리듬에 매칭하는 방법을 제시한다. 2장, ‘데이터의 관리와 이해’에서는 R을 이용해서 데이터를 직접 다룰 수 있는 기회를 제공한다. 데이터를 로딩하고, 탐색하고, 이해하는 데 사용되는 필수 데이터 구조와 절차를 설명한다. 3장, ‘게으른 학습: 최근접 이웃을 사용한 분류’에서는 단순하지만 강력한 머신러닝 알고리듬을 이해하고, 첫 번째 실제 작업인 암의 악성 샘플 식별에 적용하는 방법을 알려준다. 4장, ‘확률적 학습: 나이브 베이즈 분류’에서는 최첨단 스팸 필터링 시스템에서 사용하고 있는 확률의 핵심적인 개념을 소개한다. 독자는 자신만의 스팸 필터를 개발하는 과정에서 텍스트 마