마르코프결정모형

    [확률적 시스템] 부분 관측 마르코프 결정 프로세스 (Partially Observable Markov Decision Process)

    본문을 읽기 전, 아래 변수를 기억하고 넘어가자. 또한 마르코프 결정 프로세스가 어떤건 지 아직 모르겠다면, 전 포스트의 내용이 도움이 될 것이다. \(s_t\): t시점에서의 상태 \(o_t\): t시점에서 \(s_t\)에만 의존하는 정보 (예를 들면 위치를 찾을 수 있는 센서 정보) \(a_t\): t시점에서의 행동 \(P(s_{t+1})\): t+1시점에서의 상태 확률 \(P(s_{t+1} | s_t, a_t)\): t 시점에서 상태 s와 행동 a가 진행되었을 때, \(s_{t+1}\)일 확률 \(P(s_{t+1} | s_{1:t}, a_{1:t})\): 1부터 t시점까지의 상태 s와 행동 a가 주어졌을 때, \(s_{t+1}\)일 확률 (즉 1부터 t까지 모든 시점을 고려하였을 때 상태가 \(s_..