티스토리 뷰

Reinforcement Learning

1-2 강화학습의 역사

Steve Jeong 2018. 10. 1. 18:15

해당 포스팅은 이웅원 연구원님의 깃북 Fundamental of Reinforcement Learning을 기초로 작성되었습니다.



강화학습의 시작은 크게 두 가지로 볼 수 있다.


Trial and error , Optimal control


Trial and error 는 강화학습의 중요한 특징이다. 이는 동물의 행동에 관한 심리학 연구에서 출발했다.

심리학에서 "강화"라는 개념은 상당히 보편적으로 알려져 있는 개념으로 동물이나 인간이 행동 결과에 따라 행동을 변화시키고 발전시킨다는 이론이다.

스키너라는 심리학자의 "스키너 상자 실험" 이라는 것이 있다.


굶긴 쥐를 상자에 넣는다. 쥐는 돌아다니다가 우연히 상자 안에 있는 지렛대를 누르게 된다. 지렛대를 누르자 먹이가 나온다. 지렛대를 누르는 행동과 먹이와의 상관관계를 모르는 쥐는 다시 돌아다닌다. 그러다가 우연히 쥐가 디시 지렛대를 누르면 쥐는 이제 먹이와 지렛대 사이의 관계를 알게되고 점점 지렛대를 자주 누르게 된다. 이 과정을 반복하면서 쥐는 지렛대를 누르면 먹이를 먹을 수 있다는 것을 학습한다.


자신이 한 행동에 따른 보상으로 더 좋은 보상을 받는 행동을 수행하도록 학습이 되는 것을 볼 수 있다. 이는 강화학습의 모티브가 된다.



Optimal control은 비용함수의 비용을 최소화하도록 컨트롤러를 디자인 하는 것 을 말한다.

벨만은 벨만 방적식을 만들어 위의 문제를 해결했고, 이 방법을 Dynamic Programming 이라고 물린다. 또한 벨만은 MDP(Markov Decision Process)라는 수학적 모델을 만들어 강화학습의 기초를 만든다. 


 

아타리 벽돌깨기 게임. 이미지 출처 : 딥마인드

'Reinforcement Learning' 카테고리의 다른 글

1-3 예시 (Breakout)  (0) 2018.10.01
1-1 강화학습이란 무엇인가.  (0) 2018.10.01
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함