로그인 바로가기
하위 메뉴 바로가기
본문 바로가기
검색
로그인 / 회원가입
난이도
심화
School of AI : MOVE37 강화학습시작하기
커넥트재단
공유하기
URL복사
밴드
페이스북
트위터
School of AI : MOVE37 강화학습시작하기
School of AI : MOVE37 강화학습시작하기
http://www.boostcourse.org/move37/lecture/59774
좋아요
35
수강생
918
전체 메뉴 열기
하위 메뉴
강의
강좌 전체목록보기
CHAPTER 1 : Markov Decision Processes
1. 강화학습 코스 소개
2. 벨만 방정식
3. 마르코프 체인
과제) OpenAI Gym
4. 센서 네트워크
5. Google Dopamin
CHAPTER 2 : Dynamic Programming
1. 스포츠 배팅
2. 벨만 방정식 더 알아보기
3. 동적 계획법
과제) 동적 계획법과 강화학습 읽기 과제
4. 가치 반복 알고리즘과 정책 반복 알고리즘
퀴즈) 동적 계획법
5. 아이폰 XS와 공급망
6. 캐글 도전하기
CHAPTER 3 : Monte Carlo Methods
1. 최적화
2. 탐색과 이용
과제) 탐색 vs 이용 그리고 멀티 암드 밴딧(Multi-armed Bandit)
3. 몬테카를로 코딩 튜토리얼
과제) MC 예측 & MC 제어
과제) 몬테카를로 방법
4. Q러닝
과제) 몬테카를로 방법
5. 텐서 프로세싱
CHAPTER 4 : Model Free Learning
1. 신경과학
과제) Model Based VS Model Free
2. 시간차 학습
3. Q러닝으로 승차 공유 문제 해결하기
4. 양자 컴퓨팅
CHAPTER 5 : RL in Continuous Spaces
1. 로봇 조작
2. 랜덤 탐색
3. 칼만 필터
과제) 연속 행동 공간 VS 이산 행동 공간
CHAPTER 6 : Deep Reinforcement Learning
1. 딥 강화학습 데이터베이스 최적화
2. 딥 Q러닝
4. 듀얼링 DQN - DDQN
5. 신경망 알아보기
과제) PyTorch를 사용한 딥 Q-러닝
CHAPTER 7 : Policy Based Methods
1. 메타러닝
2. 정책 검색 알고리즘
3. 진화 알고리즘
과제) Flappy Bird: 인간 vs NEAT vs 다층 퍼셉트론(MLP)
CHAPTER 8 : Policy Gradient Methods
1. 정책 경사 방법 튜토리얼
2. 정책 경사 기법
3. 진화된 경책 경사
4. 정책 경사
과제) 몬테카를로 정책 그래디언트
CHAPTER 9 : Actor Critic Methods
1. 드론
2. 어드밴티지 액터 크리틱
과제) 비동기적 어드밴티지 액터 크리틱
3. 연속적인 동작 액터 크리틱
4. 근위 정책 최적화
5. PPO
6. 베이지안 액터 크리틱
7. 액터 크리틱 방법 스터디 가이드
CHAPTER 10 : Multi Agent RL
1. Move37
2. 역강화학습
3. 알파고 제로
4. 마지막 프로젝트
토론
2. 벨만 방정식
#강화학습
#동적계획법
#딥러닝
#벨만
#벨만방정식
#보상
#심층신경망
공유하기
URL복사
밴드
페이스북
트위터
2. 벨만 방정식 - 커넥트재단
2. 벨만 방정식 - 커넥트재단
좋아요 3
댓글
연관 토론
comment
최신순
등록순
추천순
나의 글만 보기
OFF
페이지 이동
First
Prev
Next
Last
페이지 이동
First
이전
다음
Last
수강완료
수강이 완료되었습니다.
닫기
수강이 완료되었습니다.
이제
다음 강의
를 확인하세요.
닫기
닫기
1. 강화학습 코스 소개
3. 마르코프 체인
comment