战略是供给给决策者在各个时刻拔取动作的规则,记做π=(π0,π1,π2,…, πn,πn+1…),此中πn是时刻 n拔取动作的规则。从理论上来说,为了在大范畴寻访更优战略πn,更好按照时刻 n以前的汗青,以至是随机地选择更优战略。但为了便于应用,常接纳既不依靠于汗青、又不依靠于时间的战略,以至能够接纳确定性平稳战略。
权衡战略好坏的常用目标有折扣目标和均匀目标。折扣目标是指持久折扣〔把 t时刻的单元收益折合成0时刻的单元收益的βt(β :若一个战略是β折扣更优的,则初始时刻的决策规则所构成的平稳战略对统一β也是折扣更优的,并且它还能够合成为若干个确定性平稳战略,它们对统一β都是更优的,已有计算那种战略的算法。
接纳均匀目标的马尔可夫决策过程称为均匀模子。业已证明:当形态空间S 和动作集A(i)均为有限集时,关于均匀目标存在更优确实定性平稳战略;当S和(或)A(i)不是有限的情况,必需增加前提,才有更优确实定性平稳战略。计算那种战略的算法也已研造出来。
0