도서상세보기

도서명 데이터 마이닝 개념과 기법 : 빅데이터에 숨겨진 패턴과 인사이트 발견의 방법 (4판
저자 지아웨이 한, 지안 페이, 항항 통
출판사 에이콘출판
출판일 2025-01-31
정가 55,000원
ISBN 9791161759647
수량
1장. 데이터 마이닝 개요
1.1 데이터 마이닝이란?
1.2 데이터 마이닝: 지식 발견의 핵심 절차
1.3 데이터 타입의 다양성
1.4 다양한 지식 유형의 마이닝
1.4.1 다차원 데이터의 요약 기법
1.4.2 빈발 패턴, 연관성, 상관관계 마이닝
1.4.3 예측적 분석을 위한 분류와 회귀 분석
1.4.4 클러스터 분석
1.4.5 딥러닝
1.4.6 이상점 분석
1.4.7 데이터 마이닝 결과의 유의미성
1.5 데이터 마이닝: 다양한 학문의 융합
1.5.1 데이터와 통계학
1.5.2 머신러닝과 데이터 마이닝
1.5.3 데이터베이스와 데이터 마이닝
1.5.4 데이터 과학과 데이터 마이닝
1.5.5 다른 학문과 데이터 마이닝
1.6 데이터 마이닝과 응용 분야
1.7 데이터 마이닝과 사회과학
1.8 정리
1.9 연습 문제
1.10 참고 자료

2장. 데이터, 측정, 전처리
2.1 데이터 타입
2.1.1 명목형 데이터
2.1.2 이진 데이터
2.1.3 서수형 데이터
2.1.4 수치형 데이터
2.1.5 이산형 및 연속형 데이터
2.2 데이터 분석을 위한 통계의 주요 개념
2.2.1 중심화 경향의 측정
2.2.2 분산화 수준의 측정
2.2.3 공분산과 상관관계
2.2.4 통계적 분석 결과의 시각화
2.3 유사성과 비유사성 측정
2.3.1 데이터 행렬과 비유사성 행렬
2.3.2 명목형 데이터의 확률 측정
2.3.3 이진 데이터의 확률 측정
2.3.4 수치형 데이터의 비유사성: 민코프스키 거리
2.3.5 서수형 데이터의 확률 측정
2.3.6 혼합 데이터 타입의 비유사성 측정
2.3.7 코사인 유사성
2.3.8 유사성 분포도 측정: KL 발산
2.3.9 유사성을 이용한 패턴 발견
2.4 전처리: 데이터 품질 개선을 위한 정련, 통합
2.4.1 데이터 품질 측정
2.4.2 데이터 정련 기법
2.4.3 데이터 통합 기법
2.5 데이터 변환
2.5.1 데이터 정규화
2.5.2 데이터 이산화
◈ 이 책에서 다루는 내용 ◈

◆ 딥러닝에 대한 포괄적인 지식을 제공하기 위해 딥러닝 모델 기반의 훈련 개선 전략, 합성곱 신경망(CNN, 순환 신경망(RNN, 그래프 신경망(GNN 등에 대해 심도 있게 알아본다.
◆ 최신 연구 성과를 파악할 수 있도록 데이터 마이닝의 트렌드 및 각광받는 연구 분야를 다룬다. 텍스트, 시공간 데이터, 그래프/네트워크 등 리치 데이터 유형, 감정 분석, 진실 발견, 정보 전파 등 데이터 마이닝 응용 방법론, 데이터 마이닝 방법론 및 시스템, 사회적 가치를 고려한 데이터 마이닝에 대해 소개한다.
◆ 데이터에서 여러분이 필요로 하는 최상의 가치를 추출하기 위한 개념과 기법에 대해 살펴본다.

◈ 이 책의 구성 ◈

이 책의 1, 2, 3판 출간 이후 데이터 마이닝 분야에서 다수의 큰 진전이 있었다. 특히 정보 네트워크, 그래프, 복합 구조, 데이터 스트림 등 새로운 유형의 데이터 처리에 특화된 데이터 마이닝 방법론, 시스템, 애플리케이션이 개발됐다. 이러한 빠른 발전과 새롭게 추가된 풍부한 기술을 한 권의 책에 담기는 어려우므로 우리 공저자는 나름의 대안을 찾아야 했다. 결국, 이번 4판에서는 책의 범위를 확장하는 대신 핵심 주제를 충분한 범위와 깊이로 다루고, 복잡한 데이터 유형과 분석 환경 등 해당 주제에 좀 더 집중하기로 결정했다.
4판은 지난 1~3판의 내용을 큰 폭에서 개정하고, 데이터 마이닝 기술 부분을 재구성했다. 특히, 다양한 데이터 유형에 대한 마이닝 방법론을 처리하는 핵심 기술 자료가 크게 확장되고 개선됐다. 우리 공저자는 책을 간결하면서도 최신 상태로 유지하기 위해 다음 방법으로 개정 작업을 진행했다. (1 3판에서 두 개 장으로 구성된 ‘데이터 이해’와 ‘데이터 전처리’를 하나의 장, ‘데이터, 측정, 데이터 전처리’로 통합했다. 또, 기존 ‘데이터 시각화’는 개념의 이해가 쉽고, 다른 전문 데이터 시각화 서적에서 다뤘으며, 소프트웨어 도구가 웹에서 널리 사용 가능하므로 제외했다. (2 3판의