일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Unsupervised learning
- recommender system
- SGD
- 머신러닝
- 로지스틱 회귀
- 추천 시스템
- Regularization
- 인공지능
- 컴퓨터 그래픽스
- CPP
- neural network
- pre-trained
- SVM
- 딥러닝
- 컴퓨터 비전
- OpenGL
- Kaggle
- 백준
- CNN
- Computer Vision
- petal to metal
- 파이썬
- Support Vector Machine
- cs231n
- logistic regression
- Vision
- 그래픽스
- 비용함수
- 신경망
- C++
- Today
- Total
kwan's note
강화학습이란 본문
수강일시: 2021.01.18
출처: kmooc SNU048
www.kmooc.kr/courses/course-v1:SNUk+SNU048_011k+2020_T2/course/
오늘은 대표적인 인공지능 기법 중 하나인 강화 학습에 대해 학습하겠습니다.
강화 학습(reinforcement learning)은 인공지능의 핵심 분야 중의 하나로 인공지능 에이전트를 학습시키는 과정 중의 하나입니다.
직접적으로 행동을 알려주는것이 아니라 에이전트의 행동 이후 피드백을 주는 형태로 학습이 진행된다.
어떤 결과를 얻어야 하는지는 알지만 어떻게 해야 하는지는 모르는 상태에서 학습이 진행된다.
1. 보상 함수를 통해
2. 방법은 에이전트가 스스로 배워야 한다.
3. 피드백은 행동 이후 바로 이루어질 수 도 한참 뒤에 이루어질 수 도 있다.
4.학습순서가 중요하다. (iid가 아니므로)
5.따라서 연쇄적이다.(ex 마르코프 체인)
Deterministic 이란 어떤 상태에서 어떤 액션을 할지 하나하나씩 정의해놓은 것이다.
stochastic은 어떤 state에서 어떤 액션을 취할지 확률분포로 주어지는 것. 즉 어떤 액션을 취할 확률이 높긴 하지만 항상 그 액션을 취하는 건 아니다.
value function은 policy에 의존적이다.
P는 다음스텝을 예측하고 R은 다음 보상을 예측한다.
미로찾기문제에서
policy valuefunctionn model에 대해 다시 살펴보자.
Value function이랑 policy랑은 밀접한 관계가 있다. 때로는 하나만으로 쉽게 다른 하나를 유도할 수 있다.
Exploration이랑 Exploitation을 반복하고 이 둘 사이에 트레이드오프 관계가 존재한다
Exploration이랑 Ex
ploitation을 반복하고 이 둘 사이에 트레이드오프 관계가 존재한다. 이렇게 이해하시면 되겠고요.
Exploration이랑 Exploitation을 반복하고 이 둘 사이에 트레이드오프 관계가 존재한다. 이렇게 이해하시면 되겠고요.
'ML and AI > Intro to AI - SNU' 카테고리의 다른 글
마르코프 결정 프로세스 (Markov decision Processes) (0) | 2021.01.21 |
---|---|
마르코프과정 (0) | 2021.01.18 |
휴리스틱 탐색 및 지역 탐색 (0) | 2021.01.18 |
인공지능 문제해결 전략 (0) | 2021.01.18 |
인공지능의 소개 및 역사 (0) | 2021.01.18 |