Маємо дискретний час T={0, 1, 2, ...}.
Markov decision process задається
1) скінченними множинами St станів, для кожного t з T.
2) скінченними множинами At дій, для кожного t з T.
3) для кожного стану st з St і кожної дії at з At, задано ймовірніснісний розподіл переходу pt( . / st, at), для кожного t з T.
4) задано функцію винагороди rt : St * At -> R, для всіх t з T.
No comments:
Post a Comment