kwan's note

강화학습이란 본문

ML and AI/Intro to AI - SNU

강화학습이란

kwan's note 2021. 1. 18. 11:20
반응형

수강일시: 2021.01.18

출처: kmooc SNU048

 

 

www.kmooc.kr/courses/course-v1:SNUk+SNU048_011k+2020_T2/course/

 

강좌 | SNU048_011k | K-MOOC

 

www.kmooc.kr

 

오늘은 대표적인 인공지능 기법 중 하나인 강화 학습에 대해 학습하겠습니다.

강화 학습(reinforcement learning)은 인공지능의 핵심 분야 중의 하나로 인공지능 에이전트를 학습시키는 과정 중의 하나입니다.

직접적으로 행동을 알려주는것이 아니라 에이전트의 행동 이후 피드백을 주는 형태로 학습이 진행된다.

 

어떤 결과를 얻어야 하는지는 알지만 어떻게 해야 하는지는 모르는 상태에서 학습이 진행된다.

1. 보상 함수를 통해

2. 방법은 에이전트가 스스로 배워야 한다.

3. 피드백은 행동 이후 바로 이루어질 수 도 한참 뒤에 이루어질 수 도 있다.

4.학습순서가 중요하다. (iid가 아니므로)

5.따라서 연쇄적이다.(ex 마르코프 체인)

 

 

 

 

Deterministic 이란 어떤 상태에서 어떤 액션을 할지 하나하나씩 정의해놓은 것이다.

stochastic은 어떤 state에서 어떤 액션을 취할지 확률분포로 주어지는 것. 즉 어떤 액션을 취할 확률이 높긴 하지만 항상 그 액션을 취하는 건 아니다.

value function은 policy에 의존적이다.

P는 다음스텝을 예측하고 R은 다음 보상을 예측한다.

 

미로찾기문제에서 

policy valuefunctionn model에 대해 다시 살펴보자.

Value function이랑 policy랑은 밀접한 관계가 있다. 때로는 하나만으로 쉽게 다른 하나를 유도할 수 있다.

 

 

Exploration이랑 Exploitation을 반복하고 이 둘 사이에 트레이드오프 관계가 존재한다

Exploration이랑 Ex

 

 

  1. 어떤 policy π이라는 게 주어졌을 때 가치 함수,  Vπ(S)를 구하는 과정을 Prediction이라고 한다.
  2. Control은 문제가 주어졌을 때 최적의 policy, 즉 reward를 최대한으로 할 수 있는 policy를 찾는 과정을 말한다.

ploitation을 반복하고 이 둘 사이에 트레이드오프 관계가 존재한다. 이렇게 이해하시면 되겠고요.

Exploration이랑 Exploitation을 반복하고 이 둘 사이에 트레이드오프 관계가 존재한다. 이렇게 이해하시면 되겠고요.

반응형