본문 바로가기

강화학습2

[인공지능] Chapter 12. Reinforcement Learning (2) Exploitation VS Exploration Exploitation (활용) 지금까지 학습한 것 중 최적의 행동을 선택 이미 학습한 지식을 토대로 가장 높은 보상을 기대하는 행동을 선택 학습된 정책 또는 가치 함수를 따라가는 것 Exploration (탐험) 새로운 행동을 시도 더 많은 정보를 얻기 위해 이전에 시도하지 않은 행동을 선택 불확실한 상황에서 미래의 보상을 더 잘 이해하기 위해 리스크를 감수하고 새로운 경험을 쌓는 것 새로운 행동을 시험하며 미래에 더 나은 결정을 내릴 수 있도록 학습 → Exploration이 없는 pure exploitation은 학습의 다양성과 새로운 경험을 얻는 기회를 제한하여 optimal policy를 얻는 것을 어렵게 만든다. Exploration metho.. 2023. 12. 6.
[인공지능] Chapter 11. Reinforcement Learning (1) Double Bandits Double bandits 강화학습의 한 영역 두 가지 알고리즘이 결합된 형태 1st bandit 탐험 환경과의 상호작용을 통해 가장 효과적인 행동을 선택하려고 함 알려지지 않은 환경에서 가장 좋은 결과를 얻기 위해 다양한 행동을 시도하는 과정 2nd bandit 활용 이러한 탐험을 통해 얻은 데이터를 기반으로 가장 효과적인 데이터를 예측 이미 알려진 정보를 활용하여 가장 좋은 결과를 얻는 것을 목표로 함 위 두 가지 접근 법 사이의 균형을 맞추는 것이 Double bandits의 핵심 문제 Offline Planning offline planning 환경에 대한 전체 정보를 갖고 있을 때 주로 사용 미리 모든 가능한 상태와 행동에 대한 가치를 계산하고, 이를 바탕으로 최선의 .. 2023. 12. 4.