2.765

2022影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

CTMDP基于随机平稳策略的仿真优化算法

唐昊 奚宏生 殷保群

唐昊, 奚宏生, 殷保群. CTMDP基于随机平稳策略的仿真优化算法. 自动化学报, 2004, 30(2): 229-234.
引用本文: 唐昊, 奚宏生, 殷保群. CTMDP基于随机平稳策略的仿真优化算法. 自动化学报, 2004, 30(2): 229-234.
TANG Hao, XI Hong-Sheng, YIN Bao-Qun. A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies. ACTA AUTOMATICA SINICA, 2004, 30(2): 229-234.
Citation: TANG Hao, XI Hong-Sheng, YIN Bao-Qun. A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies. ACTA AUTOMATICA SINICA, 2004, 30(2): 229-234.

CTMDP基于随机平稳策略的仿真优化算法

详细信息
    通讯作者:

    唐昊,奚宏生

    唐昊,奚宏生

  • 中图分类号: TP202

A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies

More Information
    Corresponding author: TANG Hao,XI Hong-Sheng; TANG Hao,XI Hong-Sheng
  • 摘要: 基于Markov性能势理论和神经元动态规划(NDP)方法,研究一类连续时间Markov决 策过程(MDP)在随机平稳策略下的仿真优化问题,给出的算法是把一个连续时间过程转换成其 一致化Markov链,然后通过其单个样本轨道来估计平均代价性能指标关于策略参数的梯度,以 寻找次优策略,该方法适合于解决大状态空间系统的性能优化问题.并给出了一个受控Markov 过程的数值实例.
  • 加载中
计量
  • 文章访问数:  2304
  • HTML全文浏览量:  134
  • PDF下载量:  936
  • 被引次数: 0
出版历程
  • 收稿日期:  2002-08-08
  • 刊出日期:  2004-02-20

目录

    /

    返回文章
    返回