심화

School of AI : MOVE37 강화학습시작하기

커넥트재단

URL복사 밴드 페이스북 트위터

http://www.boostcourse.org/move37/lecture/59774/

좋아요 35 수강생 918

2. 벨만 방정식

학습 목표

벨만 방정식 배우기
명명법에 익숙해지기

핵심 키워드

벨만 방정식
에이전트
보상

The Bellman Equation 원본보기

학습 내용

강화학습을 통해서 이루고자 하는 목표

강화학습의 시초

1945년 Richard Bellman 박사의 연구로 시작
동적 계획법의 한 예시
- 동적 계획법이란 복잡한 문제를 해결하기 위해 그 문제를 부분 문제들로 나누고 부분 문제를 재귀적으로 해결하는 알고리즘
- 재귀적이라는 말은 어떤 함수가 자기 자신을 계속해서 호출하는 것을 의미한다.
벨만 방정식이 풀 수 있는 문제
- 현재의 상태에서 최적의 행동을 계속해서 취할 경우 나중에 얻을 수 있는 보상이 얼마이고, 어떤 상태의 가치는 얼마인지.
- 이것은 인공지능이 최적의 정책을 고를 때 할 수 있는 최선에 근거해서 결정하기를 원하기 때문이다.
- 즉, 벨만 방정식은 기대 보상값을 평가해주는 식.