
교수자 소개
강의계획
강의
-
CHAPTER 1 : Markov Decision Processes
- 1. 강화학습 코스 소개
- 2. 벨만 방정식
- 3. 마르코프 체인
- 과제) OpenAI Gym
- 4. 센서 네트워크
- 5. Google Dopamin
-
CHAPTER 2 : Dynamic Programming
- 1. 스포츠 배팅
- 2. 벨만 방정식 더 알아보기
- 3. 동적 계획법
- 과제) 동적 계획법과 강화학습 읽기 과제
- 4. 가치 반복 알고리즘과 정책 반복 알고리즘
- 퀴즈) 동적 계획법
- 5. 아이폰 XS와 공급망
- 6. 캐글 도전하기
-
CHAPTER 3 : Monte Carlo Methods
- 1. 최적화
- 2. 탐색과 이용
- 과제) 탐색 vs 이용 그리고 멀티 암드 밴딧(Multi-armed Bandit)
- 3. 몬테카를로 코딩 튜토리얼
- 과제) MC 예측 & MC 제어
- 과제) 몬테카를로 방법
- 4. Q러닝
- 과제) 몬테카를로 방법
- 5. 텐서 프로세싱
-
CHAPTER 4 : Model Free Learning
- 1. 신경과학
- 과제) Model Based VS Model Free
- 2. 시간차 학습
- 3. Q러닝으로 승차 공유 문제 해결하기
- 4. 양자 컴퓨팅
-
CHAPTER 5 : RL in Continuous Spaces
- 1. 로봇 조작
- 2. 랜덤 탐색
- 3. 칼만 필터
- 과제) 연속 행동 공간 VS 이산 행동 공간
-
CHAPTER 6 : Deep Reinforcement Learning
- 1. 딥 강화학습 데이터베이스 최적화
- 2. 딥 Q러닝
- 4. 듀얼링 DQN - DDQN
- 5. 신경망 알아보기
- 과제) PyTorch를 사용한 딥 Q-러닝
-
CHAPTER 7 : Policy Based Methods
- 1. 메타러닝
- 2. 정책 검색 알고리즘
- 3. 진화 알고리즘
- 과제) Flappy Bird: 인간 vs NEAT vs 다층 퍼셉트론(MLP)
-
CHAPTER 8 : Policy Gradient Methods
- 1. 정책 경사 방법 튜토리얼
- 2. 정책 경사 기법
- 3. 진화된 경책 경사
- 4. 정책 경사
- 과제) 몬테카를로 정책 그래디언트
-
CHAPTER 9 : Actor Critic Methods
- 1. 드론
- 2. 어드밴티지 액터 크리틱
- 과제) 비동기적 어드밴티지 액터 크리틱
- 3. 연속적인 동작 액터 크리틱
- 4. 근위 정책 최적화
- 5. PPO
- 6. 베이지안 액터 크리틱
- 7. 액터 크리틱 방법 스터디 가이드
-
CHAPTER 10 : Multi Agent RL
- 1. Move37
- 2. 역강화학습
- 3. 알파고 제로
- 4. 마지막 프로젝트
추가정보
다음과 같은 분들의 도움을 받았습니다.
[감수자]
구태훈
School of AI, Head Dean
[퍼블리셔]
김수연
원더베리 CEO
[번역]
최다은. 홍재이, 박예슬, 하지윤, 윤수식(커넥트 번역 서포터즈)