도서상세보기

도서명 머신러닝을 위한 효율적 데이터 레이블링 : 인간 중심 AI를 위한 능동학습과 어노테이션
저자 로버트 (먼로 모나크
출판사 에이콘출판
출판일 2023-12-28
정가 40,000원
ISBN 9791161758084
수량

1부. 첫걸음

1장. 인간 참여 머신러닝 소개
1.1 인간 참여 머신러닝의 기본 원리
1.2 어노테이션에 대한 소개
1.2.1 간단한 어노테이션과 복잡한 어노테이션 전략
1.2.2 데이터 과학 지식의 간극 메우기
1.2.3 왜 수작업 어노테이션의 품질 확보가 어려울까?
1.3 학습 데이터 생성을 위해 속도는 향상시키고 비용은 줄이는 능동학습 소개
1.3.1 세 가지 일반적인 능동학습 샘플링 전략: 불확실성, 다양성, 임의성
1.3.2 평가 데이터의 랜덤 선택은 무얼 말하는 것일까?
1.3.3 언제 능동학습을 사용해야 할까
1.4 머신러닝과 인간 - 컴퓨터 상호작용
1.4.1 사용자 인터페이스: 어떻게 학습 데이터를 생성할까?
1.4.2 프라이밍: 무엇이 사람의 인지에 영향을 줄까?
1.4.3 머신러닝 예측값을 평가하면서 레이블을 생성하는 방법의 장단점
1.4.4 어노테이션을 위한 인터페이스 설계의 기본 원리
1.5 머신러닝의 보조를 받는 사람 vs 사람의 보조를 받는 머신러닝
1.6 전이학습으로 모델 시작하기
1.6.1 컴퓨터 비전 분야의 전이학습
1.6.2 자연어 처리 분야에서의 전이학습
1.7 이 책에서 배울 수 있는 것들
요약

2장. 인간 참여 머신러닝 시작하기
2.1 임시적인 방법(핵티브 학습을 넘어서: 여러분의 첫 번째 능동학습 알고리듬
2.2 첫 번째 시스템의 아키텍처
2.3 능동학습을 위한 모델 예측값과 데이터 해석
2.3.1 신뢰도 순위
2.3.2 아웃라이어 찾아내기
2.3.3 이터레이션을 통해 기대하는 것들
2.4 수작업 레이블링을 위한 사용자 인터페이스 만들기
2.4.1 텍스트 레이블링을 위한 간단한 인터페이스
2.4.2 머신러닝 데이터 관리하기
2.5 첫 번째 인간 참여 머신러닝 시스템 배포하기
2.5.1 항상 평가 데이터를 먼저 선택하라
2.5.2 모든 데이터 포인트가 기회를 가진다
2.5.3 데이터에 따라 알맞은 전략 선택하기
2.5.4 모델을 재학습시키고 반복하
◈ 이 책에서 다루는 내용 ◈
◆ 적절한 학습 데이터와 평가 데이터 식별
◆ 적절한 데이터 어노테이터 탐색과 관리
◆ 어노테이션 품질 관리 전략 선정
◆ 정확도와 효율성을 개선하기 위한 인터페이스 설계

◈ 이 책의 대상 독자 ◈
데이터 과학자, 소프트웨어 개발자와 머신러닝을 이제 막 시작한 (또는 최근 데이터 분야에서 자신의 커리어를 시작한 학생을 위한 책이다. 지도학습과 비지도학습 머신러닝, 머신러닝 모델의 학습과 검증, PyTorch, TensorFlow 같은 라이브러리에 어느 정도 익숙한 사람이면 더 좋겠지만, 이 분야의 전문가일 필요는 없다.
여러분이 더 많은 경험을 하게 됐을 때 이 책이 여러 기법에 관한 유용한 참고서가 되길 희망한다. 또한 어노테이션, 능동학습과 어노테이션을 위한 인터페이스 설계와 같은 가장 보편적인 전략을 담은 첫 번째 책이기도 하다.

◈ 이 책의 구성 ◈
크게 4부로 나눠져 있다. 도입부, 능동학습에 관한 심층 분석, 어노테이션에 관한 심층 분석 그리고 최종 부분이다. 최종 부분에서는 인터페이스 설계 전략과 3개의 구현 예제도 포함해 이 책의 전반적인 내용을 종합했다.
1부에서는 어노테이션, 능동학습 그리고 사람과 기계가 지능을 가장 효과적으로 결합할 수 있도록 도움을 주는 인간-컴퓨터 상호작용과 같은 개념을 포함해 학습 데이터와 평가 데이터 생성을 위한 구성 요소를 소개한다. 2장의 마지막에는 뉴스 헤드라인을 레이블링하는 인간 참여 머신러닝 애플리케이션을 구축해 새로운 데이터의 어노테이션부터 모델을 재학습하는 주기를 완료한 후, 어떤 데이터가 다음에 어노테이션돼야 하는지 결정하는 데 도움을 주는 모델을 이용할 수 있게 될 것이다.
2부에서는 능동학습, 즉 사람이 검토해야 하는 가장 중요한 데이터를 샘플링하는 기법을 다룬다. 3장에서는 모델의 불확실성을 이해하기 위해 가장 널리 사용되는 기법을 다루며, 4장에서는 과소 샘플링됐거나 대표성이 부족한 데이터로 인해 신뢰도와 무관하게 모델의 잘못된 지점을 식