mdp

    [확률적 시스템] 부분 관측 마르코프 결정 프로세스 (Partially Observable Markov Decision Process)

    본문을 읽기 전, 아래 변수를 기억하고 넘어가자. 또한 마르코프 결정 프로세스가 어떤건 지 아직 모르겠다면, 전 포스트의 내용이 도움이 될 것이다. \(s_t\): t시점에서의 상태 \(o_t\): t시점에서 \(s_t\)에만 의존하는 정보 (예를 들면 위치를 찾을 수 있는 센서 정보) \(a_t\): t시점에서의 행동 \(P(s_{t+1})\): t+1시점에서의 상태 확률 \(P(s_{t+1} | s_t, a_t)\): t 시점에서 상태 s와 행동 a가 진행되었을 때, \(s_{t+1}\)일 확률 \(P(s_{t+1} | s_{1:t}, a_{1:t})\): 1부터 t시점까지의 상태 s와 행동 a가 주어졌을 때, \(s_{t+1}\)일 확률 (즉 1부터 t까지 모든 시점을 고려하였을 때 상태가 \(s_..

    [확률적 시스템] 마르코프 결정 프로세스 기본 (Markov Decision Process)

    동적 계획법(Dynamic Programming) 또는 베이즈 이론(Bayes Theorem)을 다루다보면 결정적 시스템(Deterministic Process)에서 벗어나 확률적 시스템(Stochastic System)에 들어가게 된다. 결정적 시스템이란 어떤 상태(s)에서 행동(a)를 선택할 때 결과가 한 가지로 정해져있는 시스템이라고 할 수 있다 아쉽게도 현실의 대부분은 결정적 시스템이 아닌 확률적 시스템이다. 같은 행동을 하더라도, 다른 결과가 나올 수 있다. 쉽게 예를 들면, 내가 시속 100km로 1시간 주행했을 때, 어떤 날은 100km를 갈수도 있지만, 교통체증이 심각하거나 교통 사고라도 발생한 날엔 50km도 못갈 수 있다. 행동 하나를 하더라도 다른 결과를 초래할 수 있는 것이 확률적 ..