도서상세보기

도서명 프로그래머를 위한 강화학습 : 강화학습 기초부터 대표 알고리즘의 원리와 코드 구현 및 튜닝까지
저자 멀티코어 외공저
출판사 프리렉
출판일 2021-03-31
정가 25,000원
ISBN 9788965402930
수량
시작하며
01장 강화학습 기본 개념
1.1 강화학습이란
1.2 확률과 확률 과정
1.3. 마르코프 연쇄
1.4 마르코프 보상 과정

02장 강화학습 기본 알고리즘
2.1 마르코프 결정 과정
2.2 MDP 행동 가치 함수
2.3 MDP 최적 가치 함수
2.4 강화학습에 사용되는 다양한 용어
2.5 다이내믹 프로그래밍
2.6 몬테카를로 방법
2.7 TD와 SARSA
2.8 Q 러닝

03장 인공지능의 개념
3.1 머신러닝
3.2 선형 회귀 분석
3.3 분류 분석
3.4 딥러닝
3.5 개발 환경 설치
3.6 텐서플로우

04장 함수 근사법
4.1 미분
4.2 편미분
4.3 스칼라와 벡터
4.4 그래디언트
4.5 경사하강법
4.6 확률적 경사하강법
4.7 강화학습에서 편미분과 경사하강법의 표기법
4.8 함수 근사법

05장 가치 기반 강화학습과 DQN 알고리즘
5.1 DQN 알고리즘
5.2 카트폴
5.3 탐험과 탐욕의 문제
5.4 DQN 알고리즘 기본 구조
5.5 DQN 알고리즘 전체 코드 리뷰
5.6 DQN 알고리즘 세부 구조 살펴보기
5.7 DQN 알고리즘 학습 결과 분석

06장 정책 기반 강화학습 REINFORCE 알고리즘
6.1 인공신경망 다시 보기
6.2 정책 그래디언트
6.3 REINFORCE 알고리즘 동작 방식
6.4 REINFORCE 알고리즘 기본 구조
6.5 REINFORCE 알고리즘 전체 코드 리뷰
6.6 REINFORCE 알고리즘 세부 구조 살펴보기
6.7 REINFORCE 알고리즘 학습 결과 분석

07장 정책 기반 A2C 알고리즘
7.1 액터 크리틱 알고리즘
7.2 어드밴티지 액터 크리틱
7.3 A2C 알고리즘 기본 구조
7.4 A2C 알고리즘 전체 코드 리뷰
7.5 A2C 알고리즘 세부 구조 살펴보기
7.6 A2C 알고리즘 학습 결과 분석

08장 정책 기반 PPO 알고리즘
8.1 중요도 샘플링
8.2 오프 폴리시 정책 그래디언
이 책의 특징
· 강화학습 이해에 필요한 통계와 수학 이론을 기초부터 다룬다.
· 알고리즘의 기본 개념을 그림으로 표현하여 이해를 돕는다.
· 하나의 예제를 통해 일관성 있게 개념과 이론을 설명해 나간다.
· 파이썬 코드 구현과 튜닝, 최적화까지 실무에 적용할 수 있는 수준까지 다룬다.

이 책의 구성
이 책은 강화학습의 기초 개념과 인공지능 개념, 가치 기반 강화학습, 정책 기반 강화학습, 튜닝 문제, 이렇게 모두 다섯 부분으로 구성됩니다.
· 강화학습의 기초 개념: 강화학습에 필요한 통계 및 수학 이론과 MDP에 대한 설명
· 인공지능 개념: 머신러닝부터 강화학습 내부에서 사용하는 인공신경망으로 이르는 과정을 선형 회귀부터 차근차근 설명
· 가치 기반 강화학습: 상대적으로 이해하기 쉬운 DQN 알고리즘을 코드 중심으로 설명
· 정책 기반 강화학습: REINFORCE, A2C, PPO 알고리즘에 대한 설명과 실행 안내
· 튜닝 문제: 알고리즘의 파라미터 튜닝을 효율적으로 돕는 그리드 서치와 베이지안 최적화 기법