kwan's note

마르코프과정 본문

ML and AI/Intro to AI - SNU

마르코프과정

kwan's note 2021. 1. 18. 11:52
반응형

수강일시: 2021.01.18

출처: kmooc SNU048

 

 

www.kmooc.kr/courses/course-v1:SNUk+SNU048_011k+2020_T2/course/

 

강좌 | SNU048_011k | K-MOOC

 

www.kmooc.kr

 

강화 학습을 모델링하는 데에 있어서 가장 기본적인 모델인 마르코프 과정에 대해서 학습하겠습니다.

 

강화 학습은 Markov Decision Processes라고 마르코프 결정 과정이라는 모델을 기반으로 formulation이 됩니다.

 

마르코프 프로세스는 상태의 집합 S에 대해 transition하는것.

memoryless한 랜덤 프로세스다.

다음으로는 마르코프 보상 프로세스에 대해서 보도록 하겠습니다.

이는 마르코프 프로세스에서 reward함수와 discount 값이 추가된 형태입니다. 

 

reward function가 이미 존재하는데 discount factor의 필요이유가 바로 떠오르지는 않았다.

동일한 생각을 가진 학생들이 많았는지 바로 다음 슬라이드에서 discount factor가 필요한 이유를 살펴보았다.

 

discount factor가 존재하지 않는다면 무한루프에서 value가 무한대가 된다.

discount factor 가 존재한다면 1+γQ, 다시 1+γ1+γ²Q, 그리고 1+γ+γ²+γ³Q 이런 식으로 표현이 됩니다.

즉 수렴하게 된다.

반응형