제 1 부 자료의 시각화
제 1 장 자료의 시각화 ······························································································· 3
1. 왜 자료의 시각화인가? ·········································································· 4
2. 자료의 시각화의 목적은 무엇인가? ·················································· 11
1 자료를 요약 · 정리하기 위한 목적 _ 11
2 적절한 통계 방법론 적용을 위한 시각화 _ 14
3 효율적인 소통을 위한 시각화 _ 18
3. 자료의 시각화 방법과 오류 ································································ 21
1 규모가 다른 그룹 간 차이를 반영하지 못한 시각화 _ 22
2 잘못된 축의 사용에 따른 시각화의 문제점 _ 24
3 입체화에 따른 정확성 상실 _ 25
4. 자료의 시각화를 위한 그래프에는 어떤 것들이 있는가? ············· 27
제 2 장 SAS의 소개 ································································································· 33
1. SAS를 이용한 자료 시각화의 접근방법 ··········································· 34
2. SAS에 대한 오해와 SAS의 장점 ······················································· 39
3. SAS 프로그램의 기본 구조: DATA 스텝과 PROC 스텝 ············· 43
1 SAS 프로그램의 기본 구조 _ 43
2 데이터 스텝의 기본 형식 _ 46
3 PROC 스텝의 기
머리말
이 책은 저자가 구상해왔던 방법론 시리즈의 일환으로 기획되었다. 사회과학 분야의 방법론은 빠르게 발전해왔기 때문에 특정 방법론만을 가지고 연구를 수행하는 것은 더이상 유효하지 않다. 회귀분석 정도를 알아도 충분하다는 시절이 있었고, 계량경제학이 방법론의 전부인 것처럼 오해되던 시절도 있었다. 최근에는 설명 중심의 분석 모형을 넘어서 예측모형인 기계학습(machine learning이라는 영역이 큰 관심을 끌고 있다. 새로운 방법론이라고 불리는 것도 사실은 고전적인 모형의 논리구조를 확장하는 과정이기 때문에 방법론 발전의 맥락을 이해하면서 연구문제에 적합한 방법론을 선택하는 것이 중요하다. 이를 위해 저자는 『통계학의 이해와 활용』(문우사, 『범주형 자료분석』 (문우사, 『효율성 분석』(문우사 등을 저술해왔다.『데이터 시각화와 자료분석』은 각종 방법론을 활용할 때 기본이 되는 시각화 방법론을 체계적으로 소개하기 위한 책이다.
데이터 분석의 경험이 풍부한 사람일수록 자료가 갖고 있는 정보를 쉽게 요약 · 정리해서제공하는 것이 어렵다는 것을 많이 느낀다. 『데이터 시각화』 책을 쓰게 된 가장 큰 동기는 계속 축적해나아가고 있는 공공데이터 자료들을 분석하고 정리하는 과정에서 시각화 모듈의 필요성을 절감했기 때문이다. 또한 자료 분석 방법론이 발전함에 따라 복잡한 통계모형의 결과를 이해하기 쉽게 제공하기 위해서는 시각화 방법이 효율적이지만 이를 구현하는 방법론에 대한 논의가 그동안 체계적으로 제시되지 못해왔다. 이것은 통계프로그램이 기본으로 출력해주는 표와 그래프를 별다른 고민 없이 그대로 사용하는 경향이 강했기 때문이다. 사실 저저가 통계 프로그램을 이용한 데이터 시각화를 가르치다보면 “왜 손쉬운 엑셀을 놔두고 어려운 프로그램을 사용해서 시각화를 해야 하는가”라는 질문을 자주 받는다. 이 질문이 나오는 이유는 많은 변수를 반복적으로 분석해야 하는 작업을 수행한 경험이 없기 때문이다. 또한 사회과학 연구 결과를 소통할 때 원자료와 분석파일을 의무적