강화학습 기초

Notice

Recent Posts

Tags more

Archives

관리 메뉴

No Story, No Ecstasy

Shallow Series

heave_17 2021. 5. 26. 22:11

에이전트가 관측을 하고 주어진 환경에서 행동을 하면 보상을 받을 때, 보상의 장기간 기대치를 최대로 만드는 행동을 학습하는 것이다.

보상을 얻기 위해서는 특별하지 않은(보상=0) 행동들이 꼭 필요하며, 에이전트는 어떤 행동이 실제로 보상을 발생시켰는지 연결고리를 찾아서 “지연된 보상”을 얻어야 한다.

모든 상태는 그 직전 상태와, 그 상태에서 에이전트의 행동만이 영향을 미친다고 가정(Markov property)한 프로세스. 정책(행동을 결정하기 위한 알고리즘)을 결정하는데 가장 기본적인 가정으로 많이 쓰인다.

상태 s에서 행동 a를 취할 때 받을 수 있는 모든 보상의 합 Q-value는 현재 행동에 의한 즉각 보상과 미래에 받을 미래 보상의 최대값의 합으로 계산할 수 있다. 할인율이 미래 가치의 중요도를 조절한다(값이 클수록 미래에 큰 가치를 둠).

Markov property가 유효하다면, 미래의 보상을 과거로 전파시킬 수 있다. 또한, 재귀적 성질을 통해 Q-value를 추측으로 초기값을 설정한 후, 점점 정답 값에 수렴시킬 수 있다.

Epsilon-greedy 전략을 통해 탐험과 활용을 적절히 번갈아 가면서 사용하는 것이다(epsilon의 확률로 최적이 아닌 랜덤으로 행동).

Q-Table(행동에 따른 보상 매트릭스) 대신 신경망을 이용해서, 최대 Q-value를 근사해내도록 학습시킨다.

강화학습

'Shallow Series' Related Articles