Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 대감집
- docker
- frontend
- 쿠버네티스
- do it
- 프론트엔드
- 머신러닝
- DBSCAN
- Kaggle
- Kubernetes
- 최적화
- 심층신경망
- ADP 실기
- python
- ADP
- 클러스터링
- React
- 타입스크립트
- 캐글
- 대감집 체험기
- Machine Learning
- 빅쿼리
- 리액트
- r
- LDA
- TooBigToInnovate
- 구글
- 파이썬
- 차원 축소
- bigquery
Archives
- Today
- Total
No Story, No Ecstasy
강화학습 기초 본문
강화학습
- Reinforcement Learning (강화 학습)
에이전트가 관측을 하고 주어진 환경에서 행동을 하면 보상을 받을 때, 보상의 장기간 기대치를 최대로 만드는 행동을 학습하는 것이다.
보상을 얻기 위해서는 특별하지 않은(보상=0) 행동들이 꼭 필요하며, 에이전트는 어떤 행동이 실제로 보상을 발생시켰는지 연결고리를 찾아서 “지연된 보상”을 얻어야 한다.
- Markov Decision Process
모든 상태는 그 직전 상태와, 그 상태에서 에이전트의 행동만이 영향을 미친다고 가정(Markov property)한 프로세스. 정책(행동을 결정하기 위한 알고리즘)을 결정하는데 가장 기본적인 가정으로 많이 쓰인다.
- The Bellman Equation
상태 s에서 행동 a를 취할 때 받을 수 있는 모든 보상의 합 Q-value는 현재 행동에 의한 즉각 보상과 미래에 받을 미래 보상의 최대값의 합으로 계산할 수 있다. 할인율이 미래 가치의 중요도를 조절한다(값이 클수록 미래에 큰 가치를 둠).
Markov property가 유효하다면, 미래의 보상을 과거로 전파시킬 수 있다. 또한, 재귀적 성질을 통해 Q-value를 추측으로 초기값을 설정한 후, 점점 정답 값에 수렴시킬 수 있다.
- Q Learning
Epsilon-greedy 전략을 통해 탐험과 활용을 적절히 번갈아 가면서 사용하는 것이다(epsilon의 확률로 최적이 아닌 랜덤으로 행동).
- Deep (Double) Q Networks
Q-Table(행동에 따른 보상 매트릭스) 대신 신경망을 이용해서, 최대 Q-value를 근사해내도록 학습시킨다.
강화학습
'Shallow Series' 카테고리의 다른 글
순차 패턴 분석 기초 (0) | 2021.05.26 |
---|---|
서버 관련 - VM, MongoDB, WAS (0) | 2021.03.12 |
대시보드, 도커, 컨테이너 (0) | 2021.03.12 |
구글 빅쿼리 (0) | 2021.03.12 |
텍스트마이닝 - 디리클레, 깁스 샘플링 (0) | 2021.03.12 |