强化学习研究综述

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

强化学习研究综述

高阳, 陈世福, 陆鑫

文章导航 > 自动化学报 > 2004 > 30(1): 86-100

高阳, 陈世福, 陆鑫. 强化学习研究综述. 自动化学报, 2004, 30(1): 86-100.

引用本文:

高阳, 陈世福, 陆鑫. 强化学习研究综述. 自动化学报, 2004, 30(1): 86-100.

GAO Yang, CHEN Shi-Fu, LU Xin. Research on Reinforcement Learning Technology:A Review. ACTA AUTOMATICA SINICA, 2004, 30(1): 86-100.

Citation:

GAO Yang, CHEN Shi-Fu, LU Xin. Research on Reinforcement Learning Technology:A Review. ACTA AUTOMATICA SINICA, 2004, 30(1): 86-100.

高阳, 陈世福, 陆鑫. 强化学习研究综述. 自动化学报, 2004, 30(1): 86-100.

引用本文:

高阳, 陈世福, 陆鑫. 强化学习研究综述. 自动化学报, 2004, 30(1): 86-100.

GAO Yang, CHEN Shi-Fu, LU Xin. Research on Reinforcement Learning Technology:A Review. ACTA AUTOMATICA SINICA, 2004, 30(1): 86-100.

Citation:

GAO Yang, CHEN Shi-Fu, LU Xin. Research on Reinforcement Learning Technology:A Review. ACTA AUTOMATICA SINICA, 2004, 30(1): 86-100.

强化学习研究综述

1.
南京大学计算机软件新技术国家重点实验室,南京

通讯作者:
高阳,陈世福,陆鑫

高阳,陈世福,陆鑫

高阳,陈世福,陆鑫

中图分类号: TP181
计量
- 文章访问数: 7376
- HTML全文浏览量: 752
- PDF下载量: 6518
- 被引次数: 0
出版历程
- 收稿日期: 2002-11-04
- 刊出日期: 2004-01-20

Research on Reinforcement Learning Technology:A Review

1.
State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing

More Information

Corresponding author: GAO Yang,CHEN Shi-Fu,LU Xin; GAO Yang,CHEN Shi-Fu,LU Xin; GAO Yang,CHEN Shi-Fu,LU Xin

摘要: 摘要强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.该文首先介绍强化学习的原理和结构;其次构造一个二维分类图,分别在马尔可夫环境和非马尔可夫环境下讨论最优搜索型和经验强化型两类算法;然后结合近年来的研究综述了强化学习技术的核心问题,包括部分感知、函数估计、多agent强化学习,以及偏差技术;最后还简要介绍强化学习的应用情况和未来的发展方向.
- 强化学习 /
- 部分感知 /
- 函数估计 /
- 多agent强化学习
Abstract: Reinforcement learning gets optimal policy through trial-and-error and interaction with dynamic environment. Its properties of self-improving and online learning make reinforcement learning become one of most important machine learning methods. In this paper, we firstly survey the foundation, structure and algorithms of reinforcement learning. We also discuss the exploration oriented algorithms and the exploitation oriented algorithms in Markov and non-Markov surroundings. Then we deeply discuss some key concepts of reinforcement learning, including partially observable environment, function approximation, multi-agent reinforcement learning and rule extraction from reinforcement learning. Finally, we briefly introduce some applications of reinforcement leaning and point out some directions of reinforcement learning.
- Reinforcement learning /
- partially observe /
- function approximation /
- multiagent reinforcement learning

参考文献(0)

资源附件(0)

计量

文章访问数: 7376
HTML全文浏览量: 752
PDF下载量: 6518
被引次数: 0

/

下载: 全尺寸图片幻灯片

分享

用微信扫码二维码

分享至好友和朋友圈

返回

版权所有 © 《自动化学报》编辑部京ICP备14019135号-6

地址：北京中关村东路95号邮政编码：100190E-mail：aas_editor@ia.ac.cn

电话：010-82544677 (日常咨询和稿件处理)，010-82544653(费用管理、寄刊)

本系统由北京仁和汇智信息技术有限公司开发技术支持： info@rhhz.net