머리말
제1장 서론
1.1 연구 목적 및 의의
1.2 연구 대상 및 범위
1.3 선행 연구
1.4 연구의 구성
제2장 한국어 연속 표현 연구의 방법론
2.1 n-gram 연구
2.2 말뭉치 기반 연구와 말뭉치 주도 연구
2.3 연속 표현의 추출 방법
2.3.1 연속 표현의 추출 단위
2.3.2 연속 표현의 추출 범위
2.4 연속 표현의 통계 기법과 추출 도구
2.4.1 연속 표현의 빈도
2.4.2 연속 표현의 분포율
2.4.3 연속 표현의 사용도
2.4.4 지프의 법칙
2.4.5 연속 표현의 추출 프로그램
제3장 한국어 연속 표현 추출 과정
3.1 추출 과정
3.1.1 원시 말뭉치
3.1.2 형태소 분석
3.1.3 말뭉치 전처리
3.2 추출된 n-gram 결과물
제4장 한국어 연속 표현의 분포적 양상
4.1 연속 표현의 분포적 양상
4.1.1 연속 표현의 토큰 비교
4.1.2 연속 표현의 타입 비교
4.1.3 연속 표현 TTR 비교
4.2 연속 표현의 빈도 분석
4.2.1 연속 표현 빈도 통계적 분석
4.2.2 문어 연속 표현 빈도
4.2.3 구어 연속 표현 빈도
4.2.4 연속 표현의 종합 빈도
4.3 연속 표현의 분포율 분석
4.3.1 연속 표현 분포율 통계적 분석
4.3.2 문어 연속 표현 분포율
4.3.3 구어 연속 표현 분포율
4.3.4 연속 표현의 종합 분포율
4.4 연속 표현의 사용도 분석
4.4.1 연속 표현 사용도 통계적 분석
4.4.2 문어 연속 표현 사용도
4.4.3 구어 연속 표현 사용도
4.4.4 연속 표현의 종합 사용도
4.5 소결
제5장 한국어 연속 표현의 특성
5.1 연속 표현의 사용도 순위
5.2 2-gram~9-gram 연속 표현의 특성
5.2.1 2-gram 연속 표현
5.2.2 3-gram 연속 표현
5.2.3 4-gram 연속 표현
5.2.4 5-gram 연속 표현
5.2.5 6-gram 연속 표현
5.2.6 7-gram
컴퓨터가 인간의 언어를 이해하는 방법과 과정은 인공지능 분야의 중요한 연구 과제였다. 자연언어정보 처리방법은 인공지능분야의 중요한 기술이며, 이것으로 인간과 컴퓨터의 상호작용을 실현할 수 있다. 언어모델은 인간과 컴퓨터의 상호작용모델의 일종이며 언어모델은 기계번역, 음성인식, 검색엔진의 자동 완성 등에 적용할 수 있다. 언어 모델은 주로 규칙 언어 모델과 통계 언어 모델로 나뉜다. 통계 언어 모델은 확률 통계의 방법으로 언어 단위의 내재적인 통계 법칙을 밝히는 데 사용된다.
통계 언어 모델에서 n-gram은 간단하고 효과적이며 널리 사용되고 있다. 이 책은 한국어 문어와 구어 말뭉치를 조사하여 전산언어학의 n-gram 방법으로 연속 표현을 추출하고 통계언어학적 방법으로 연속 표현의 기본 분포 양상과 사용 특징을 고찰하였다. 이 책에서는 연속 표현을 하나의 단어로 보고 빈도와 분포율을 각각 집계하여 연속 표현의 사용도를 계산하였다. 연속 표현의 사용도를 바탕으로 사용도 순위를 나누고, 사용도 순위에 따라 한국어 범용 연속 표현 목록을 제시하였다. 이상의 연구 방법은 연속 표현의 빈도수와 출현 텍스트 수를 모두 고찰할 수 있다. 따라서 저사용도 연속 표현의 대량 중복, 순위가 성기거나 같은 사용도 연속 표현 간의 순위 거리가 먼 문제를 극복할 수 있을 뿐만 아니라 상용 연속 표현 추출에도 효과적이라고 할 수 있다.
이 책에서는 실험을 통해 한국어 연속 표현이 지프의 법칙을 따른다는 것을 입증했다. 그리고 지프의 분포로 빈도, 분포율, 사용도에서 연속 표현 분포의 전반적인 패턴을 고찰하였다. 지프분포를 기준으로 상용 연속 표현의 중요성을 인식할 수 있으며, 상용 연속 표현의 반복 축적의 역할을 강조할 수 있다.
이 책에서는 또한 연속 표현의 구성요소 태깅으로부터 한국어 연속 표현의 구성요소 간의 결합관계를 고찰하였다. 이러한 고찰을 통해 상위 메타언어 특징을 살펴보고 한국어의 형식과 의미 조합을 체계적으로 파악하였다. 또한 단순선형회귀분석 방법을 이용하여