본문 바로가기

인공지능2

[인공지능] Chapter 11. Reinforcement Learning (1) Double Bandits Double bandits 강화학습의 한 영역 두 가지 알고리즘이 결합된 형태 1st bandit 탐험 환경과의 상호작용을 통해 가장 효과적인 행동을 선택하려고 함 알려지지 않은 환경에서 가장 좋은 결과를 얻기 위해 다양한 행동을 시도하는 과정 2nd bandit 활용 이러한 탐험을 통해 얻은 데이터를 기반으로 가장 효과적인 데이터를 예측 이미 알려진 정보를 활용하여 가장 좋은 결과를 얻는 것을 목표로 함 위 두 가지 접근 법 사이의 균형을 맞추는 것이 Double bandits의 핵심 문제 Offline Planning offline planning 환경에 대한 전체 정보를 갖고 있을 때 주로 사용 미리 모든 가능한 상태와 행동에 대한 가치를 계산하고, 이를 바탕으로 최선의 .. 2023. 12. 4.
[인공지능] Chapter 10. Markov Decision Process (2) The Bellman EquationsBellman Equations지금 상태 s에서 이후 모든 상태 s’로 이어지는 값 중, 최댓값을 고르는 식최적화 문제를 푸는 데 사용순차적인 의사결정 문제를 다루는 데 활용How to be optimalTake correct first actionKeep being optimal벨만 방정식에서 agent가 얻을 수 있는 utility의 최적화된 값 (벨만 방정식의 두 가지 형태)V*(s) (상태 가치 함수)agent가 상태 s에서 시작optimal 하게 행동한다면 행동 가능한 타임 스탬프 동안 얻을 수 있는 utility 기대값Q*(s, a) (행동 가치 함수)agent가 상태 s에서 시작행동 a를 시작한뒤 optimal하게 해동한다면 이후 얻을 수 있는 utili.. 2023. 11. 27.