mdp

[확률적 시스템] 부분 관측 마르코프 결정 프로세스 (Partially Observable Markov Decision Process)

2023.01.06

본문을 읽기 전, 아래 변수를 기억하고 넘어가자. 또한 마르코프 결정 프로세스가 어떤건 지 아직 모르겠다면, 전 포스트의 내용이 도움이 될 것이다. \(s_t\): t시점에서의 상태 \(o_t\): t시점에서 \(s_t\)에만 의존하는 정보 (예를 들면 위치를 찾을 수 있는 센서 정보) \(a_t\): t시점에서의 행동 \(P(s_{t+1})\): t+1시점에서의 상태 확률 \(P(s_{t+1} | s_t, a_t)\): t 시점에서 상태 s와 행동 a가 진행되었을 때, \(s_{t+1}\)일 확률 \(P(s_{t+1} | s_{1:t}, a_{1:t})\): 1부터 t시점까지의 상태 s와 행동 a가 주어졌을 때, \(s_{t+1}\)일 확률 (즉 1부터 t까지 모든 시점을 고려하였을 때 상태가 \(s_..

강화학습/강화학습 기본

[확률적 시스템] 마르코프 결정 프로세스 기본 (Markov Decision Process)

2023.01.03

동적 계획법(Dynamic Programming) 또는 베이즈 이론(Bayes Theorem)을 다루다보면 결정적 시스템(Deterministic Process)에서 벗어나 확률적 시스템(Stochastic System)에 들어가게 된다. 결정적 시스템이란 어떤 상태(s)에서 행동(a)를 선택할 때 결과가 한 가지로 정해져있는 시스템이라고 할 수 있다 아쉽게도 현실의 대부분은 결정적 시스템이 아닌 확률적 시스템이다. 같은 행동을 하더라도, 다른 결과가 나올 수 있다. 쉽게 예를 들면, 내가 시속 100km로 1시간 주행했을 때, 어떤 날은 100km를 갈수도 있지만, 교통체증이 심각하거나 교통 사고라도 발생한 날엔 50km도 못갈 수 있다. 행동 하나를 하더라도 다른 결과를 초래할 수 있는 것이 확률적 ..

[확률적 시스템] 부분 관측 마르코프 결정 프로세스 (Partially Observable Markov Decision Process)

[확률적 시스템] 마르코프 결정 프로세스 기본 (Markov Decision Process)

티스토리툴바