일반화1 [인공지능] Chapter 12. Reinforcement Learning (2) Exploitation VS Exploration Exploitation (활용) 지금까지 학습한 것 중 최적의 행동을 선택 이미 학습한 지식을 토대로 가장 높은 보상을 기대하는 행동을 선택 학습된 정책 또는 가치 함수를 따라가는 것 Exploration (탐험) 새로운 행동을 시도 더 많은 정보를 얻기 위해 이전에 시도하지 않은 행동을 선택 불확실한 상황에서 미래의 보상을 더 잘 이해하기 위해 리스크를 감수하고 새로운 경험을 쌓는 것 새로운 행동을 시험하며 미래에 더 나은 결정을 내릴 수 있도록 학습 → Exploration이 없는 pure exploitation은 학습의 다양성과 새로운 경험을 얻는 기회를 제한하여 optimal policy를 얻는 것을 어렵게 만든다. Exploration metho.. 2023. 12. 6. 이전 1 다음