CTMDP基于随机平稳策略的仿真优化算法

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

CTMDP基于随机平稳策略的仿真优化算法

唐昊, 奚宏生, 殷保群

文章导航 > 自动化学报 > 2004 > 30(2): 229-234

唐昊, 奚宏生, 殷保群. CTMDP基于随机平稳策略的仿真优化算法. 自动化学报, 2004, 30(2): 229-234.

引用本文:

唐昊, 奚宏生, 殷保群. CTMDP基于随机平稳策略的仿真优化算法. 自动化学报, 2004, 30(2): 229-234.

TANG Hao, XI Hong-Sheng, YIN Bao-Qun. A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies. ACTA AUTOMATICA SINICA, 2004, 30(2): 229-234.

Citation:

TANG Hao, XI Hong-Sheng, YIN Bao-Qun. A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies. ACTA AUTOMATICA SINICA, 2004, 30(2): 229-234.

唐昊, 奚宏生, 殷保群. CTMDP基于随机平稳策略的仿真优化算法. 自动化学报, 2004, 30(2): 229-234.

引用本文:

唐昊, 奚宏生, 殷保群. CTMDP基于随机平稳策略的仿真优化算法. 自动化学报, 2004, 30(2): 229-234.

TANG Hao, XI Hong-Sheng, YIN Bao-Qun. A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies. ACTA AUTOMATICA SINICA, 2004, 30(2): 229-234.

Citation:

TANG Hao, XI Hong-Sheng, YIN Bao-Qun. A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies. ACTA AUTOMATICA SINICA, 2004, 30(2): 229-234.

CTMDP基于随机平稳策略的仿真优化算法

1.
中国科学技术大学自动化系,合肥;
2.
合肥工业大学计算机系,合肥

通讯作者:
唐昊,奚宏生

唐昊,奚宏生

中图分类号: TP202
计量
- 文章访问数: 2467
- HTML全文浏览量: 164
- PDF下载量: 958
- 被引次数: 0
出版历程
- 收稿日期: 2002-08-08
- 刊出日期: 2004-02-20

A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies

1.
Department of Automaiton,University of Science and Technology of China,Hefei;Department of Computer,Hefei University of Technology,Hefei

More Information

Corresponding author: TANG Hao,XI Hong-Sheng; TANG Hao,XI Hong-Sheng

摘要: 基于Markov性能势理论和神经元动态规划(NDP)方法,研究一类连续时间Markov决策过程(MDP)在随机平稳策略下的仿真优化问题,给出的算法是把一个连续时间过程转换成其一致化Markov链,然后通过其单个样本轨道来估计平均代价性能指标关于策略参数的梯度,以寻找次优策略,该方法适合于解决大状态空间系统的性能优化问题.并给出了一个受控Markov 过程的数值实例.
- 性能势 /
- 神经元动态规划 /
- 仿真优化
Abstract: Based on the theory of Markov performance potentials and neuro-dynamic programming (NDP) methodology, we study simulation optimization algorithm for a class of continuous time Markov decision processes (CTMDPs) under randomized stationary policies. The proposed algorithm will estimate the gradient of average cost performance measure with respect to policy parameters by transforming a ccntinuous time Markov process into a uniform Markov chain and simulating a single sample path of the chain. The goal is to look for a suboptimal randomized stationary pohcy. The algorithm derived here can meet the needs of periormance optimization of many difficult systems with large-scale state space. Finally,a numerical example for a controlled Markov process is provided.
- Performance potentials /
- neuro-dynamic programming /
- simulation optimization

参考文献(0)

资源附件(0)

计量

文章访问数: 2467
HTML全文浏览量: 164
PDF下载量: 958
被引次数: 0

/

下载: 全尺寸图片幻灯片

分享

用微信扫码二维码

分享至好友和朋友圈

返回

版权所有 © 《自动化学报》编辑部京ICP备14019135号-6

地址：北京中关村东路95号邮政编码：100190E-mail：aas_editor@ia.ac.cn

电话：010-82544677 (日常咨询和稿件处理)，010-82544653(费用管理、寄刊)

本系统由北京仁和汇智信息技术有限公司开发技术支持： info@rhhz.net