마르코프과정

Notice

Recent Posts

Tags more

Archives

관리 메뉴

kwan's note

ML and AI/Intro to AI - SNU

kwan's note 2021. 1. 18. 11:52

수강일시: 2021.01.18

출처: kmooc SNU048

강좌 | SNU048_011k | K-MOOC

www.kmooc.kr

강화 학습을 모델링하는 데에 있어서 가장 기본적인 모델인 마르코프 과정에 대해서 학습하겠습니다.

강화 학습은 Markov Decision Processes라고 마르코프 결정 과정이라는 모델을 기반으로 formulation이 됩니다.

마르코프 프로세스는 상태의 집합 S에 대해 transition하는것.

memoryless한 랜덤 프로세스다.

다음으로는 마르코프 보상 프로세스에 대해서 보도록 하겠습니다.

이는 마르코프 프로세스에서 reward함수와 discount 값이 추가된 형태입니다.

reward function가 이미 존재하는데 discount factor의 필요이유가 바로 떠오르지는 않았다.

동일한 생각을 가진 학생들이 많았는지 바로 다음 슬라이드에서 discount factor가 필요한 이유를 살펴보았다.

discount factor가 존재하지 않는다면 무한루프에서 value가 무한대가 된다.

discount factor 가 존재한다면 1+γQ, 다시 1+γ1+γ²Q, 그리고 1+γ+γ²+γ³Q 이런 식으로 표현이 됩니다.

즉 수렴하게 된다.

동적 프로그래밍을 통한 마르코프 결정 과정 (0)	2021.01.21
마르코프 결정 프로세스 (Markov decision Processes) (0)	2021.01.21
강화학습이란 (0)	2021.01.18
휴리스틱 탐색 및 지역 탐색 (0)	2021.01.18
인공지능 문제해결 전략 (0)	2021.01.18

'ML and AI/Intro to AI - SNU' Related Articles