학습 내용 강화학습을 통해서 이루고자 하는 목표 강화학습의 시초1945년 Richard Bellman 박사의 연구로 시작동적 계획법의 한 예시동적 계획법이란 복잡한 문제를 해결하기 위해 그 문제를 부분 문제들로 나누고 부분 문제를 재귀적으로 해결하는 알고리즘재귀적이라는 말은 어떤 함수가 자기 자신을 계속해서 호출하는 것을 의미한다.벨만 방정식이 풀 수 있는 문제현재의 상태에서 최적의 행동을 계속해서 취할 경우 나중에 얻을 수 있는 보상이 얼마이고, 어떤 상태의 가치는 얼마인지.이것은 인공지능이 최적의 정책을 고를 때 할 수 있는 최선에 근거해서 결정하기를 원하기 때문이다.즉, 벨만 방정식은 기대 보상값을 평가해주는 식.
comment