반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 인공지능
- logistic regression
- 그래픽스
- CPP
- 컴퓨터 비전
- Support Vector Machine
- OpenGL
- recommender system
- CNN
- petal to metal
- Kaggle
- Vision
- SVM
- 백준
- Unsupervised learning
- 신경망
- pre-trained
- Computer Vision
- C++
- 비용함수
- 딥러닝
- neural network
- 파이썬
- 컴퓨터 그래픽스
- 추천 시스템
- 머신러닝
- Regularization
- 로지스틱 회귀
- SGD
- cs231n
Archives
- Today
- Total
kwan's note
마르코프과정 본문
반응형
수강일시: 2021.01.18
출처: kmooc SNU048
www.kmooc.kr/courses/course-v1:SNUk+SNU048_011k+2020_T2/course/
강화 학습을 모델링하는 데에 있어서 가장 기본적인 모델인 마르코프 과정에 대해서 학습하겠습니다.
강화 학습은 Markov Decision Processes라고 마르코프 결정 과정이라는 모델을 기반으로 formulation이 됩니다.
마르코프 프로세스는 상태의 집합 S에 대해 transition하는것.
memoryless한 랜덤 프로세스다.
다음으로는 마르코프 보상 프로세스에 대해서 보도록 하겠습니다.
이는 마르코프 프로세스에서 reward함수와 discount 값이 추가된 형태입니다.
reward function가 이미 존재하는데 discount factor의 필요이유가 바로 떠오르지는 않았다.
동일한 생각을 가진 학생들이 많았는지 바로 다음 슬라이드에서 discount factor가 필요한 이유를 살펴보았다.
discount factor가 존재하지 않는다면 무한루프에서 value가 무한대가 된다.
discount factor 가 존재한다면 1+γQ, 다시 1+γ1+γ²Q, 그리고 1+γ+γ²+γ³Q 이런 식으로 표현이 됩니다.
즉 수렴하게 된다.
반응형
'ML and AI > Intro to AI - SNU' 카테고리의 다른 글
동적 프로그래밍을 통한 마르코프 결정 과정 (0) | 2021.01.21 |
---|---|
마르코프 결정 프로세스 (Markov decision Processes) (0) | 2021.01.21 |
강화학습이란 (0) | 2021.01.18 |
휴리스틱 탐색 및 지역 탐색 (0) | 2021.01.18 |
인공지능 문제해결 전략 (0) | 2021.01.18 |