CHAPTER 1 데이터 사이언스 001
1.1 데이터란 무엇인가? 002
1.1.1 데이터(Data와 정보(Information 002
1.1.2 자료, 정보, 지식, 지혜의 사이클 004
1.1.3 데이터 유형 005
1.1.4 데이터 크기 007
1.2 데이터 사이언스란? 008
1.2.1 데이터 사이언스 정의 008
1.2.2 데이터 사이언티스트(Data Scientist 010
1.2.3 데이터 분석 VS 데이터 사이언스 011
1.3 데이터 사이언스 절차 012
1.4 데이터 사이언스를 위한 소프트웨어 014
CHAPTER 2 빅데이터 기술의 이해 017
2.1 빅데이터란? 018
2.1.1 빅데이터란 정확히 무엇일까요? 018
2.1.2 빅데이터의 3V 021
2.1.3 빅데이터의 부상 021
2.2 빅데이터 분석 023
2.3 빅데이터 활용 024
2.4 빅데이터 시대의 빅브라더 등장 026
CHAPTER 3 엑셀로 데이터 맛보기 029
3.1 엑셀 몰아보기 030
3.1.1 엑셀 화면 구성 030
3.1.2 데이터 입력 033
3.1.3 파일 저장 034
3.1.4 파일 열기 035
3.2 워크시트와 자동 서식 035
3.2.1 삽입과 삭제 035
3.2.2 이동과 복사 037
3.2.3 미리 만들어진 서식으로 문서 만들기 040
CHAPTER 4 엑셀로 데이터 정리하기 041
4.1 데이터 채우기 042
4.1.1 자동 채우기 042
4.1.2 빠른 채우기 045
4.2 데이터 유효성 검사하기 046
4.2.1 데이터 유효성 검사 기능 046
4.2.2 유효성 조건 설정 046
4.3 중복데이터 정리하기 050
4.4 셀 꾸미기 051
4.4.1 셀 서식 051
4.4.2 셀 스타일과 표 서식 056
4.4.3 메모 058
4.4.4 행과 열 크기 설정 060
4.5 기본함수 익히기 061
4.5.1 함수란? 061
4.5.2 셀 참조 하기 062
4
책 속에서
우리는 다양한 종류의 디지털 소스로부터 매일같이 수많은 데이터가 쏟아져나오는 빅데이터 시대를 살아가고 있습니다. 앞으로 우리가 직면하게 될 4차 산업혁명 시대는 초연결성, 초지능성 사회를 지향하고 있습니다. 4차 산업혁명의 핵심 기술 중의 하나로 지목되고 있는 사물인터넷 기술로 인해 우리가 접하게 될 데이터의 크기와 종류는 더 크고 광범위해질 것으로 여겨집니다. 이것은 우리가 앞으로 다루게 될 데이터가 점차 기존의 데이터 관리 소프트웨어의 한계를 넘어선다는 것을 의미합니다. 그렇다면 어떻게 빅데이터를 다룰 수 있을까요? 이 책에서는 프로그래밍 언어 R을 소개합니다.
8.1 R이란?
R은 통계 및 그래픽을 위한 프로그래밍 언어입니다. 소프트웨어 개발을 위한 언어라기보다는 데이터를 분석하고 시각화하는 데 최적화된 언어라고 할 수 있습니다. R은 1990년대 초 뉴질랜드 오클랜드 대학의 로버트 젠틀맨과 로스 이하카에 의해 통계처리를 목적으로 개발되었지만, 그 응용분야가 점차 데이터마이닝, 머신러닝 등으로 확장되었습니다. R의 큰 장점은 오픈소스 언어이기 때문에 누구나 무료로 이용할 수 있다는 점입니다. 또한 인터프리터 언어로 컴파일 과정을 거치지 않아 분석 과정이 비교적 간결하며, 비전공자도 쉽게 배울 수 있다는 장점이 있습니다. 이러한 이유로 R은 빅데이터 시대에 여러 다양한 분
야의 데이터 분석가들로부터 사랑을 받고 있습니다.
데이터 분석은 데이터를 수집하고, 데이터를 정제하고, 데이터를 시각화하고, 여러가지 분석 방법을 통해 분석하는 과정을 거쳐 데이터 안에 숨어있는 정보를 찾습니다. 우리는 R을 통해 데이터를 수집하는 방법과 데이터를 분석하기 전에 전처리하고 시각화 하는 방법에 대해 공부하려고 합니다.
8.2 R과 RStudio 환경구축
본격적으로 R을 다루기 위해서는 먼저 PC에 R과 RStudio를 설치해줘야 합니다. RStudio는 R을 사용하여 프로그램 작업을 편하게 할 수 있도록 도와주는 통합개발환경(In