티스토리 뷰
해당 포스팅은 이웅원 연구원님의 깃북 Fundamental of Reinforcement Learning을 기초로 작성되었습니다.
https://www.youtube.com/watch?v=V1eYniJ0Rnk

Playing atari with deep reinforcement learning 이라는 논문이 있다. 강화학습 + 딥러닝으로 아타리의 고전게임을 학습 시킨 것이다.
아타리 게임 중에서도 Breakout 이라는 벽돌깨기 게임을 컴퓨터가 플레이 하는 것인데, 위 영상을 보면 단순하게 벽돌을 깨는 것이 아니라 벽돌을 더 빨리 깨는 전략을 쓰기도한다.
위 그림은 학습을 간략하게 보여준다. 강화학습의 학습 대상은 agent이다. 사람의 뇌에 해당하는 에이전트는 처음에는 랜덤한 행동을 한다. 랜덤하게 행동하다 우연히 공을 치게 되며 게임점수가 올라가면 에이전트는 이 행동을 수행하면 점수가 올라가는 것을 판단해 점수가 올라갔던 행동을 더 하려고 자신을 학습시킨다.
하지만 에이전트는 단순하게 즉각적인 점수를 높이려는 것이 아니라 시간이 지날수록 한 에피소드 동안 받는 점수를 최대화 시키려한다. 따라서 에이전트는 일련의 연속된 행독 즉 "정책(Policy)"이 필요하다. 높은 점수라는 것은 어떠한 행동의 결과보다는 각 상황에 맞는 적절한 행동들의 조합이라 할 수 있다. 따라서 높은 점수를 얻는 것이 목표인 에이전드는 이러한 자신의 일련의 행동들의 정책 혹은 전략을 좀 더 높은 점수를 받는 쪽으로 학습한다.
최근에 deep reinforcement learning이 대세가 되었다. 이는 데이터가 많은 상황에서 학습이 제대로 이루어지지 않기 때문이다. 데이터의 숫자를 일일이 저장해서 행동을 하는 것이 아니라 함수의 형태로 만들어 정확하지 않더라도 효율적으로 학습할 수 있게 하는 방법을 사용한다.
'Reinforcement Learning' 카테고리의 다른 글
| 1-2 강화학습의 역사 (0) | 2018.10.01 |
|---|---|
| 1-1 강화학습이란 무엇인가. (0) | 2018.10.01 |