December 22, 2005

Визначення: Markov decision process

Маємо дискретний час T={0, 1, 2, ...}.

Markov decision process задається
1) скінченними множинами St станів, для кожного t з T.
2) скінченними множинами At дій, для кожного t з T.
3) для кожного стану st з St і кожної дії at з At, задано ймовірніснісний розподіл переходу pt( . / st, at), для кожного t з T.
4) задано функцію винагороди rt : St * At -> R, для всіх t з T.

No comments: