로그인 바로가기 하위 메뉴 바로가기 본문 바로가기

강좌 개요

  • 타입 MOOC 강좌
  • 기간 상시 수강
  • 학습시간 자유롭게 학습
  • 수강 승인 방식 자동 승인
  • 수료증 미발급
http://www.boostcourse.org/move37
둘러보기
좋아요 35 수강생 918

교수자 소개

강의계획

강의
  1. CHAPTER 1 : Markov Decision Processes
    1. 1. 강화학습 코스 소개
    1. 2. 벨만 방정식
    1. 3. 마르코프 체인
    1. 과제) OpenAI Gym
    1. 4. 센서 네트워크
    1. 5. Google Dopamin
  2. CHAPTER 2 : Dynamic Programming
    1. 1. 스포츠 배팅
    1. 2. 벨만 방정식 더 알아보기
    1. 3. 동적 계획법
    1. 과제) 동적 계획법과 강화학습 읽기 과제
    1. 4. 가치 반복 알고리즘과 정책 반복 알고리즘
    1. 퀴즈) 동적 계획법
    1. 5. 아이폰 XS와 공급망
    1. 6. 캐글 도전하기
  3. CHAPTER 3 : Monte Carlo Methods
    1. 1. 최적화
    1. 2. 탐색과 이용
    1. 과제) 탐색 vs 이용 그리고 멀티 암드 밴딧(Multi-armed Bandit)
    1. 3. 몬테카를로 코딩 튜토리얼
    1. 과제) MC 예측 & MC 제어
    1. 과제) 몬테카를로 방법
    1. 4. Q러닝
    1. 과제) 몬테카를로 방법
    1. 5. 텐서 프로세싱
  4. CHAPTER 4 : Model Free Learning
    1. 1. 신경과학
    1. 과제) Model Based VS Model Free
    1. 2. 시간차 학습
    1. 3. Q러닝으로 승차 공유 문제 해결하기
    1. 4. 양자 컴퓨팅
  5. CHAPTER 5 : RL in Continuous Spaces
    1. 1. 로봇 조작
    1. 2. 랜덤 탐색
    1. 3. 칼만 필터
    1. 과제) 연속 행동 공간 VS 이산 행동 공간
  6. CHAPTER 6 : Deep Reinforcement Learning
    1. 1. 딥 강화학습 데이터베이스 최적화
    1. 2. 딥 Q러닝
    1. 4. 듀얼링 DQN - DDQN
    1. 5. 신경망 알아보기
    1. 과제) PyTorch를 사용한 딥 Q-러닝
  7. CHAPTER 7 : Policy Based Methods
    1. 1. 메타러닝
    1. 2. 정책 검색 알고리즘
    1. 3. 진화 알고리즘
    1. 과제) Flappy Bird: 인간 vs NEAT vs 다층 퍼셉트론(MLP)
  8. CHAPTER 8 : Policy Gradient Methods
    1. 1. 정책 경사 방법 튜토리얼
    1. 2. 정책 경사 기법
    1. 3. 진화된 경책 경사
    1. 4. 정책 경사
    1. 과제) 몬테카를로 정책 그래디언트
  9. CHAPTER 9 : Actor Critic Methods
    1. 1. 드론
    1. 2. 어드밴티지 액터 크리틱
    1. 과제) 비동기적 어드밴티지 액터 크리틱
    1. 3. 연속적인 동작 액터 크리틱
    1. 4. 근위 정책 최적화
    1. 5. PPO
    1. 6. 베이지안 액터 크리틱
    1. 7. 액터 크리틱 방법 스터디 가이드
  10. CHAPTER 10 : Multi Agent RL
    1. 1. Move37
    1. 2. 역강화학습
    1. 3. 알파고 제로
    1. 4. 마지막 프로젝트

추가정보

다음과 같은 분들의 도움을 받았습니다.

[감수자]
구태훈
School of AI, Head Dean

[퍼블리셔]
김수연
원더베리 CEO

[번역]
최다은. 홍재이, 박예슬, 하지윤, 윤수식(커넥트 번역 서포터즈)