掌控策略指标怎么？

3年前 (2022-10-21)阅读2回复0

管理员
注册排名10
经验值282850
级别管理员
主题56570
回复0

楼主

战略是供给给决策者在各个时刻拔取动作的规则，记做π=(π0，π1，π2，…， πn，πn+1…)，此中πn是时刻 n拔取动作的规则。从理论上来说，为了在大范畴寻访更优战略πn，更好按照时刻 n以前的汗青，以至是随机地选择更优战略。但为了便于应用，常接纳既不依靠于汗青、又不依靠于时间的战略，以至能够接纳确定性平稳战略。

权衡战略好坏的常用目标有折扣目标和均匀目标。折扣目标是指持久折扣〔把 t时刻的单元收益折合成0时刻的单元收益的βt(β ：若一个战略是β折扣更优的，则初始时刻的决策规则所构成的平稳战略对统一β也是折扣更优的，并且它还能够合成为若干个确定性平稳战略，它们对统一β都是更优的，已有计算那种战略的算法。

接纳均匀目标的马尔可夫决策过程称为均匀模子。业已证明：当形态空间S 和动作集A(i)均为有限集时，关于均匀目标存在更优确实定性平稳战略；当S和（或）A(i)不是有限的情况,必需增加前提，才有更优确实定性平稳战略。计算那种战略的算法也已研造出来。

温柔掌控

回帖 “掌控”一词有什么含义呢？ 天堂1有了元素支配者怎样进入炎魔房？

掌控策略指标怎么？期待您的回复！

取消

掌控策略指标怎么？

掌控策略指标怎么？ 期待您的回复！

插入网络图片

掌控策略指标怎么？期待您的回复！