데이터마이닝의 주요 기법을 쉽게 다룬 ‘데이터마이닝 교과서’
데이터마이닝이란 주제는 최근에 매우 보편화되어 많은 입문서가 출판되고 다양한 기법들이 논문을 통해 발표되고 있다. 하지만 이공계 대학생이나 대학원생을 위한 입문서는 찾아보기 어렵다. 이 책은 데이터마이닝을 접하는 독자들이 데이터마이닝의 주요 기법에 대한 이론을 쉽게 이해할 수 있도록, 단순한 소프트웨어 사용법을 싣는 대신에 대표적인 데이터마이닝 기법의 기본 개념 및 원리 등을 설명하는 데 주력했다. 따라서 대학에서는 이 책을 데이터마이닝 관련 과목의 교과서로 활용할 수 있으며, 기업 및 연구소의 연구자들은 지침서로 이용할 수 있다.
이 책에서는 여러 기법의 소개와 함께 예제를 가능한 많이 수록하여, 예제를 통해 기법을 쉽게 이해할 수 있도록 돕는다. 또한, 장마다 연습문제를 실어 복습할 수 있도록 하였다. 일부 연습문제를 풀기 위해서는 소프트웨어의 도움이 필요하지만 이 책에서는 기법에 중심을 두고자 소프트웨어의 어떤 기능을 어떻게 사용할 수 있다는 것은 언급하지 않고 있다. 최근에는 인터넷 등에서도 데이터마이닝 관련 무료 소프트웨어를 구하여 사용할 수 있으므로 기법을 이해한다면 소프트웨어의 사용은 무난할 것이다.
[주요 내용]
데이터마이닝 기법을 목적에 따라 크게 예측, 분류분석, 군집분석, 연관규칙으로 나눌 수 있는데, 이 책에서는 이와 같은 구분에 따라 4부로 구성하였다. 1부의 예측 기법에서는 회귀분석, 주성분분석 및 부분최소자승 회귀분석을 다루고 있다. 2부의 분류분석에서는 로지스틱 회귀분석, 판별분석, 트리기반 기법, 그리고 서포트 벡터 머신을 설명하고 있다. 3부에서는 군집분석을 다루고 있는데, 크게 계층적 군집분석과 비계층 군집분석으로 우선 구분하여 계층적 군집분석에서는 주로 연결법을 설명하고 비계층 군집분석에서는 K-means, K-medoids, 퍼지 K-means, 모형기반 군집방법 등을 소개하고 있다.