掌控策略指标怎么?

1个月前 (10-21 04:48)阅读1回复0
找个小木屋
找个小木屋
  • 管理员
  • 注册排名10
  • 经验值73010
  • 级别管理员
  • 主题14602
  • 回复0
楼主

  战略是供给给决策者在各个时刻拔取动作的规则,记做π=(π0,π1,π2,…, πn,πn+1…),此中πn是时刻 n拔取动作的规则。从理论上来说,为了在大范畴寻访更优战略πn,更好按照时刻 n以前的汗青,以至是随机地选择更优战略。但为了便于应用,常接纳既不依靠于汗青、又不依靠于时间的战略,以至能够接纳确定性平稳战略。

   权衡战略好坏的常用目标有折扣目标和均匀目标。折扣目标是指持久折扣〔把 t时刻的单元收益折合成0时刻的单元收益的βt(β :若一个战略是β折扣更优的,则初始时刻的决策规则所构成的平稳战略对统一β也是折扣更优的,并且它还能够合成为若干个确定性平稳战略,它们对统一β都是更优的,已有计算那种战略的算法。

   接纳均匀目标的马尔可夫决策过程称为均匀模子。业已证明:当形态空间S 和动作集A(i)均为有限集时,关于均匀目标存在更优确实定性平稳战略;当S和(或)A(i)不是有限的情况,必需增加前提,才有更优确实定性平稳战略。计算那种战略的算法也已研造出来。

0
回帖

掌控策略指标怎么? 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息