강화학습이란

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

kwan's note

강화학습이란 본문

ML and AI/Intro to AI - SNU

강화학습이란

kwan's note 2021. 1. 18. 11:20

수강일시: 2021.01.18

출처: kmooc SNU048

www.kmooc.kr/courses/course-v1:SNUk+SNU048_011k+2020_T2/course/

강좌 | SNU048_011k | K-MOOC

www.kmooc.kr

오늘은 대표적인 인공지능 기법 중 하나인 강화 학습에 대해 학습하겠습니다.

강화 학습(reinforcement learning)은 인공지능의 핵심 분야 중의 하나로 인공지능 에이전트를 학습시키는 과정 중의 하나입니다.

직접적으로 행동을 알려주는것이 아니라 에이전트의 행동 이후 피드백을 주는 형태로 학습이 진행된다.

어떤 결과를 얻어야 하는지는 알지만 어떻게 해야 하는지는 모르는 상태에서 학습이 진행된다.

1. 보상 함수를 통해

2. 방법은 에이전트가 스스로 배워야 한다.

3. 피드백은 행동 이후 바로 이루어질 수 도 한참 뒤에 이루어질 수 도 있다.

4.학습순서가 중요하다. (iid가 아니므로)

5.따라서 연쇄적이다.(ex 마르코프 체인)

Deterministic 이란 어떤 상태에서 어떤 액션을 할지 하나하나씩 정의해놓은 것이다.

stochastic은 어떤 state에서 어떤 액션을 취할지 확률분포로 주어지는 것. 즉 어떤 액션을 취할 확률이 높긴 하지만 항상 그 액션을 취하는 건 아니다.

value function은 policy에 의존적이다.

P는 다음스텝을 예측하고 R은 다음 보상을 예측한다.

미로찾기문제에서

policy valuefunctionn model에 대해 다시 살펴보자.

Value function이랑 policy랑은 밀접한 관계가 있다. 때로는 하나만으로 쉽게 다른 하나를 유도할 수 있다.

Exploration이랑 Exploitation을 반복하고 이 둘 사이에 트레이드오프 관계가 존재한다

Exploration이랑 Ex

어떤 policy π이라는 게 주어졌을 때 가치 함수, Vπ(S)를 구하는 과정을 Prediction이라고 한다.
Control은 문제가 주어졌을 때 최적의 policy, 즉 reward를 최대한으로 할 수 있는 policy를 찾는 과정을 말한다.

ploitation을 반복하고 이 둘 사이에 트레이드오프 관계가 존재한다. 이렇게 이해하시면 되겠고요.

Exploration이랑 Exploitation을 반복하고 이 둘 사이에 트레이드오프 관계가 존재한다. 이렇게 이해하시면 되겠고요.

'ML and AI > Intro to AI - SNU' 카테고리의 다른 글

마르코프 결정 프로세스 (Markov decision Processes) (0)	2021.01.21
마르코프과정 (0)	2021.01.18
휴리스틱 탐색 및 지역 탐색 (0)	2021.01.18
인공지능 문제해결 전략 (0)	2021.01.18
인공지능의 소개 및 역사 (0)	2021.01.18

'ML and AI/Intro to AI - SNU' Related Articles

kwan's note

강화학습이란 본문

강화학습이란

'ML and AI > Intro to AI - SNU' 카테고리의 다른 글

티스토리툴바