Bellman equation1 [인공지능] Chapter 10. Markov Decision Process (2) The Bellman EquationsBellman Equations지금 상태 s에서 이후 모든 상태 s’로 이어지는 값 중, 최댓값을 고르는 식최적화 문제를 푸는 데 사용순차적인 의사결정 문제를 다루는 데 활용How to be optimalTake correct first actionKeep being optimal벨만 방정식에서 agent가 얻을 수 있는 utility의 최적화된 값 (벨만 방정식의 두 가지 형태)V*(s) (상태 가치 함수)agent가 상태 s에서 시작optimal 하게 행동한다면 행동 가능한 타임 스탬프 동안 얻을 수 있는 utility 기대값Q*(s, a) (행동 가치 함수)agent가 상태 s에서 시작행동 a를 시작한뒤 optimal하게 해동한다면 이후 얻을 수 있는 utili.. 2023. 11. 27. 이전 1 다음