multicore-it / rl

Reinforcement Learning For Programmer

`프로그래머를 위한 강화학습` `도서`와 `온라인강의` 소스코드를 제공하는 사이트입니다.

코드에 사용한 프로그램 버전은 다음과 같습니다.

python3.7.7
tensorflow2.2
numpy1.19.3

도서는 Yes24 에서 구입할 수 있습니다.

동영상 강의는 인프런 에서 들을 수 있습니다.

목차

시작하며
01장 강화학습 기본 개념
- 1.1 강화학습이란
- 1.2 확률과 확률 과정
- 1.3. 마르코프 연쇄
- 1.4 마르코프 보상 과정
02장 강화학습 기본 알고리즘
- 2.1 마르코프 결정 과정
- 2.2 MDP 행동 가치 함수
- 2.3 MDP 최적 가치 함수
- 2.4 강화학습에 사용되는 다양한 용어
- 2.5 다이내믹 프로그래밍
- 2.6 몬테카를로 방법
- 2.7 TD와 SARSA
- 2.8 Q 러닝
03장 인공지능의 개념
- 3.1 머신러닝
- 3.2 선형 회귀 분석
- 3.3 분류 분석
- 3.4 딥러닝
- 3.5 개발 환경 설치
- 3.6 텐서플로우
04장 함수 근사법
- 4.1 미분
- 4.2 편미분
- 4.3 스칼라와 벡터
- 4.4 그래디언트
- 4.5 경사하강법
- 4.6 확률적 경사하강법
- 4.7 강화학습에서 편미분과 경사하강법의 표기법
- 4.8 함수 근사법
05장 가치 기반 강화학습과 DQN 알고리즘
- 5.1 DQN 알고리즘
- 5.2 카트폴
- 5.3 탐험과 탐욕의 문제
- 5.4 DQN 알고리즘 기본 구조
- 5.5 DQN 알고리즘 전체 코드 리뷰
- 5.6 DQN 알고리즘 세부 구조 살펴보기
- 5.7 DQN 알고리즘 학습 결과 분석
06장 정책 기반 강화학습 REINFORCE 알고리즘
- 6.1 인공신경망 다시 보기
- 6.2 정책 그래디언트
- 6.3 REINFOFCE 알고리즘 동작 방식
- 6.4 REINFOFCE 알고리즘 기본 구조
- 6.5 REINFORCE 알고리즘 전체 코드 리뷰
- 6.6 REINFORCE 알고리즘 세부 구조 살펴보기
- 6.7 REINFORCE 알고리즘 학습 결과 분석
07장 정책 기반 A2C 알고리즘
- 7.1 액터 크리틱 알고리즘
- 7.2 어드밴티지 액터 크리틱
- 7.3 A2C 알고리즘 기본 구조
- 7.4 A2C 알고리즘 전체 코드 리뷰
- 7.5 A2C 알고리즘 세부 구조 살펴보기
- 7.6 A2C 알고리즘 학습 결과 분석
08장 정책 기반 PPO 알고리즘
- 8.1 중요도 샘플링
- 8.2 오프 폴리시 정책 그래디언트
- 8.3 클리핑 기법
- 8.4 GAE
- 8.5 PPO 알고리즘 기본 구조
- 8.6 PPO 알고리즘 전체 코드 리뷰
- 8.7 PPO 알고리즘 세부 구조 살펴보기
- 8.8 PPO 알고리즘 알고리즘 학습 결과 분석
09장 인공신경망 튜닝
- 9.1 인공신경망 튜닝 개요
- 9.2 입력 데이터 전처리
- 9.3 비용 함수의 선택
- 9.4 활성화 알고리즘
- 9.5 가중치 초기화
- 9.6 최적화 알고리즘
- 9.7 노드와 은닉층 개수에 대한 논의
- 9.8 PPO 알고리즘 인공신경망 튜닝
- 9.9 PPO 알고리즘 튜닝 코드 적용
- 9.10 PPO 알고리즘 튜닝 결과 분석
10장 그리드 서치 기반 최적화 기법
- 10.1 그리드 서치 개념
- 10.2 그리드 서치 코딩
- 10.3 그리드 서치 전체 코드
- 10.4 그리드 서치 결과 분석
- 10.5 그리드 서치 파라미터 튜닝 적용
11장 베이지안 최적화 기법
- 11.1 빈도주의 확률과 베이지안 확률
- 11.2 베이지안 확률 계산
- 11.3 베이지안 최적화 패키지 소개
- 11.4 베이지안 최적화 패키지 활용
- 11.5 베이지안 최적화 전체 코드
- 11.6 베이지안 최적화 결과 분석
마무리하며

About

Reinforcement Learning For Programmer

Languages

Language:Jupyter Notebook 100.0%