2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于因果建模的强化学习控制: 现状及展望

孙悦雯 柳文章 孙长银

孙悦雯, 柳文章, 孙长银. 基于因果建模的强化学习控制: 现状及展望. 自动化学报, 2023, 49(3): 661−677 doi: 10.16383/j.aas.c220823
引用本文: 孙悦雯, 柳文章, 孙长银. 基于因果建模的强化学习控制: 现状及展望. 自动化学报, 2023, 49(3): 661−677 doi: 10.16383/j.aas.c220823
Sun Yue-Wen, Liu Wen-Zhang, Sun Chang-Yin. Causality in reinforcement learning control: The state of the art and prospects. Acta Automatica Sinica, 2023, 49(3): 661−677 doi: 10.16383/j.aas.c220823
Citation: Sun Yue-Wen, Liu Wen-Zhang, Sun Chang-Yin. Causality in reinforcement learning control: The state of the art and prospects. Acta Automatica Sinica, 2023, 49(3): 661−677 doi: 10.16383/j.aas.c220823

基于因果建模的强化学习控制: 现状及展望

doi: 10.16383/j.aas.c220823
基金项目: 国家自然科学基金(62236002, 61921004)资助
详细信息
    作者简介:

    孙悦雯:东南大学自动化学院博士研究生. 2017年获得山东大学学士学位. 主要研究方向为强化学习与因果发现. E-mail: amber_sun@seu.edu.cn

    柳文章:安徽大学人工智能学院博士后. 2016年获得吉林大学学士学位, 2022年获得东南大学博士学位. 主要研究方向为多智能体强化学习, 迁移强化学习. E-mail: wzliu@ahu.edu.cn

    孙长银:东南大学自动化学院教授. 主要研究方向为智能控制与优化, 强化学习, 神经网络, 数据驱动控制. 本文通信作者. E-mail: cysun@seu.edu.cn

Causality in Reinforcement Learning Control: The State of the Art and Prospects

Funds: Supported by National Natural Science Foundation of China (62236002, 61921004)
More Information
    Author Bio:

    SUN Yue-Wen Ph.D. candidate at the School of Automation, Southeast University. She received her bachelor degree from Shandong University in 2017. Her research interest covers reinforcement learning and causal discovery

    LIU Wen-Zhang Postdoctor at School of Artificial Intelligence, Anhui University. He received his bachelor degree and Ph.D. degree from Jilin University in 2016 and Southeast University in 2022, respectively. His research interest covers multi-agent reinforcement learning and transfer reinforcement learning

    SUN Chang-Yin Professor at the School of Automation, Southeast University. His research interest covers intelligent control and optimization, reinforcement learning, neural networks, and data-driven control. Corresponding author of this paper

  • 摘要: 基于因果建模的强化学习技术在智能控制领域越来越受欢迎. 因果技术可以挖掘控制系统中的结构性因果知识, 并提供了一个可解释的框架, 允许人为对系统进行干预并对反馈进行分析. 量化干预的效果使智能体能够在复杂的情况下 (例如存在混杂因子或非平稳环境) 评估策略的性能, 提升算法的泛化性. 本文旨在探讨基于因果建模的强化学习控制技术 (以下简称因果强化学习) 的最新进展, 阐明其与控制系统各个模块的联系. 首先介绍了强化学习的基本概念和经典算法, 并讨论强化学习算法在变量因果关系解释和迁移场景下策略泛化性方面存在的缺陷. 其次, 回顾了因果理论的研究方向, 主要包括因果效应估计和因果关系发现, 这些内容为解决强化学习的缺陷提供了可行方案. 接下来, 阐释了如何利用因果理论改善强化学习系统的控制与决策, 总结了因果强化学习的四类研究方向及进展, 并整理了实际应用场景. 最后, 对全文进行总结, 指出了因果强化学习的缺点和待解决问题, 并展望了未来的研究方向.
  • 视频分割问题是当前计算机视觉领域一个比较热门的话题.与静态图像分割方法不同的是视频分割不仅要考虑到单视频帧内各个像素点或超像素块之间的关系, 还要保证相邻视频帧之间对应像素点或超像素块的连续性与光滑性.视频分割的结果可以为更高一级的视频及视频中目标的分析工作提供较好的分析基础.

    起初, 针对静止摄像机拍摄的视频, 即视频背景为静止不变的情况, 可以通过简单的去背景的方法得到整个运动的前景区域[1-4].从目前的视频分割方法来看, 包括基于像素点的分割、基于超像素块的分割和基于提议(Proposals)的分割等.但是, 对于视频分割而言, 考虑到运算量和运算速度的问题, 基于像素点的分割方法很不现实, 也很少被采用.当前比较流行的视频分割方法以基于超像素块的分割和基于提议的分割为主.首先, 对基于超像素块的分割而言, 研究者们试图通过区域块跟踪的方法来处理[5-8]得到不同的分割区域.鉴于视频数据本身的特殊性, 还有一些视频分割方法将视频分割成底层特征随时间变化连续的超像素块[7-10].然而, 超像素块本身往往不具备完整的语义信息, 每个超像素块可能是一个完整的目标, 也可能是构成某个目标的一部分, 这样的分割结果并不利于进一步的目标分析工作.并且, 分割结果的优劣很大程度上还依赖于所选择的分割阈值, 我们通常很难选择一个合适的阈值使得每一个分割区域都是一个完整且有意义的目标或目标的组成部分.另外, 对于比较长的视频而言, 在整个视频分割的过程中, 会出现前后帧相对应的分割区域错位的情况.近几年, 还有研究者提出针对视频中运动目标的分割方法[11-12], 比如文献[13]中用一种全自动的方法, 通过将Grab-Cut方法[14]扩展到时空领域来得到视频中目标的闭合轮廓.为了得到更有意义的分割结果[15-16], 基于提议(Proposals)的视频分割方法越来越受到研究者们的青睐[9, 17-20], 每一个提议都极有可能是一个有意义的目标或目标的某个组成部分.其中, 文献[21]通过SVM (Support vector machine)分类器提取出每个视频帧中较优的一些提议, 再通过求解一个全连接的条件随机场的最大后验对前景和背景进行分类, 得到的前景区域往往是一个完整的、有意义的目标所在的区域.文献[22]利用特征空间优化的方法将视频进行语义分割, 得到视频中各个语义目标所在的区域.文献[23]借助目标检测以及目标跟踪的结果对视频中的目标进行分割.

    然而, 这些视频分割方法得到的是整个前景目标所在的区域[24-25], 未能细化到构成目标的每一个组成部分.如果要进一步对运动目标的姿势等进行识别与分析, 仅仅得到整个目标所在的区域是远远不够的, 因此, 与上述方法不同, 本文所提出的视频分割方法可以具体到构成运动目标的每个主要部位.

    在各类运动目标中, 人是最普遍, 也是最复杂的一种.与其他刚性物体不同, 由于人姿势变化的不确定性和无规律性, 其旋转、尺度以及外貌的变化都会给分割过程带来很大的困难.目前, 已有不少关于人身体各部位的跟踪与检测方法, 将人的身体分成若干个运动部位, 如图 1(a)所示, 不同的部位由不同灰度的矩形框来标定, 而非具体的身体部位所在的区域.此类方法通常是基于模板的匹配, 根据人姿势、尺度的变化, 分别与各个角度和尺度的模板进行匹配, 从而得到与测试图像最为接近的一个模板作为匹配结果, 称这种方法为"图案结构(Pictorial structure)"[26-27].该方法的模型为树形结构, 只考虑到四肢与躯干之间的关系, 而没有对四肢之间的关系加以约束, 往往会引起某一只胳膊或者某一只腿的漏检或错检.另外, 该方法虽然已被广泛地应用到人的跟踪与姿势的估计中, 但是, 由于人运动姿势变化的随机性和不可预知性, 无法事先知道目标尺度和旋转角度的变化范围, 逐一模板匹配的过程会很大程度地影响运算速度.

    图 1  “图案结构”检测结果与本方法分割结果图
    Fig. 1  Detection result of "pictorial structure" method and the segmentation result of proposed method

    针对以上问题, 本文提出一种旋转与尺度不变的运动视频中人身体部位所在区域的分割方法, 如图 1(b)所示为单帧的分割标注结果.该方法不仅考虑到躯干与四肢之间的关系, 同时还考虑到四肢之间的相互关系.其最大的优势就在于, 它不需要考虑不同尺度与旋转角度的模板匹配, 而是利用人体各个部位的相对面积及比例关系, 构建一个旋转与尺度不变的视频分割方法.实验结果表明, 该方法比"图案结构"方法的鲁棒性更强, 尤其是对于目标旋转和尺度变化较大的视频, 并与现有的"图案结构"方法进行了定性和定量的比较.这样的分割结果无论是在体育赛场、舞蹈演出, 还是在视频监控系统中都具有重要的应用潜质.

    本文最大的贡献就是提出了一种新的旋转与尺度不变的人身体各部位所在区域的视频分割方法.如图 2所示为整个方法的鸟瞰图, 首先, 找到每一帧(Frame 1, Frame 2, $\cdots$, Frame $ n$)中可能的身体部位所在的区域块; 然后, 根据每帧内各个身体部位间的相对位置、大小、对称性等约束找到每一帧中可能的身体部位组合; 最后, 利用相邻帧之间运动的连续性、光滑性等约束条件, 采用动态规划的方法找到每一帧中最优的人身体部位的组合.该方法不仅适用于行人视频, 同样也适用于复杂的运动视频.

    图 2  旋转与尺度不变的视频分割方法鸟瞰图
    Fig. 2  The bird-view of rotation and scale invariant video segmentation method

    本文提出的视频分割方法旨在分割出视频中人身体各部位所在的区域.该方法根据人体各部分组成结构之间空间与时间的连续性, 对可能的人体部位组成结构进行优化选择.为了使得分割结果不受目标运动过程中旋转以及尺度变化的影响, 人体部位组成结构的图模型应为一个环状结构, 也就是说, 不仅要考虑躯干与四肢之间的关系, 还要考虑四肢之间的关系.如何有效地对该环状结构进行优化具有一定的挑战性.本文提出一种生成最优的$N$个人体部位组合的方法, 每一帧中所有人体部位之间形成一个环状的图结构, 分别找到每一帧中最佳的$N$个人体部位组合, 根据帧与帧之间每个身体部位以及整个人运动的连续性和光滑性, 采用动态规划的优化方法找到每一帧中最优的一组人体部位组合, 从而巧妙地解决了该非树形结构的优化问题.

    本方法所采用的人体部位组成结构主要包括5个身体部位:躯干(Torso)、左右胳膊(Arm1, Arm2) 和左右腿(Leg1, Leg2), 由于头的位置可以简单地通过两只胳膊和躯干的位置检测到, 考虑到模型的简洁性, 该方法没有包括头部.每帧内各个身体部位之间的结构关系以及相邻帧间相应身体部位之间位移、形状变化的关系, 如图 3所示, 图中每个节点表示一个身体部位, 每条边表示它所连接的两个身体部位之间的关系.其中, 虚线边代表单帧内身体各部位之间的关系, 实线边代表相邻帧之间各部位之间的关系, 每个点线方框代表一个视频帧.这里, 不仅考虑到躯干-胳膊、躯干-腿、胳膊-胳膊、腿-腿之间的关系, 还考虑到胳膊-腿之间的关系.并且对于相邻的前后帧之间, 身体各个部位以及整个身体的连续性和一致性也是必须要考虑的.

    图 3  单帧内与相邻帧之间身体部位关系图
    Fig. 3  Human body parts relationships in single frame and between adjacent frames

    该方法把身体部位所在区域的视频分割转化成一个图模型的优化问题, 即把每一个身体部位分配给图模型中的一个节点, 通过优化过程使得分配的花费最小.这里, 可能的身体部位所在的区域由文献[28]所提出的方法得到.该方法可得到一系列与目标类无关的提议(Proposals).这些提议都具有较高的属于某个目标类的分值, 也就是说, 这些通过合并超像素块得到的提议很有可能是一个有意义的目标.这也是提议比普通超像素块的优势所在.另外, 通过分割算法得到的超像素块很容易将具有相同表观特征的不同目标划分为同一个区域, 而提议则可以在很大程度上避免这种错误的产生.本方法将最有可能属于身体部位的提议集合起来构成可能的身体部位的组合.

    $ \begin{aligned} E(f)=\\& \min\underbrace{\bigg(\sum\limits_{k=1}^{m}(\alpha P(f_{k})+ \beta G(f_{k})+\gamma O(f_{k})+\delta A(f_{k}))\bigg)}_{\rm Intra\mbox{-}frame energy}+\\ %\footnotesize &\underbrace{\sum\limits_{k=2}^{m}\bigg(\eta S(f_{k}, f_{k-1})+\phi L(f_{k}, f_{k-1})+\theta H(f_{k}, f_{k-1})\bigg)}_{\rm Inter\mbox{-}frame energy}\end{aligned} $

    (1)

    如式(1) 所示, 同时考虑到帧内与帧间的连续性与一致性, 能量函数$E(f)$包括帧内能量(Intra-frame energy)和帧间能量(Inter-frame energy)两大部分, 其中帧内能量主要包括身体部位的形状匹配花费$P(f_{k})$、身体部位之间的距离$G(f_{k})$、身体部位之间的重叠$O(f_{k})$、身体部位之间的面积比例$A(f_{k})$等, 身体部位的形状越接近真实形状, $P(f_{k})$就越小; 身体部位之间的距离和重叠区域越小, $G(f_{k})$和$O(f_{k})$就越小; 身体部位之间的面积比越接近真实比例, $A(f_{k})$就会越小.而帧间能量主要包括身体部位以及整个目标形状的连续性$S(f_{k}, f_{k-1})$、位置的连续性$L(f_{k}, f_{k-1})$以及颜色的连续性$H(f_{k}, f_{k-1})$, 帧与帧之间身体各部位以及整个目标的形状变化越小、位移越小以及颜色的改变越小, $S(f_{k}, f_{k-1})$、$L(f_{k}, f_{k-1})$和$H(f_{k}, f_{k-1})$就会越小.系数$\alpha$、$\beta$、$\gamma$、$\delta$、$\eta$、$\phi$和$\theta$为控制各分项比重的常量系数.

    1.1.1   身体部位形状匹配花费(P)

    首先通过文献[28]中所提出的方法得到各个候选区域块.每一个候选区域块为一个可能的身体部位, 即一个提议.每一个身体部位, 比如躯干、胳膊等, 均具有一组模板.通过度量候选区域与模板之间所对应形状描述子[29]的欧氏距离来衡量候选区域的形状与真实身体部位形状的相似性.区域的形状描述子定义为区域内部任意点对之间的距离直方图.当计算这个直方图时, 用区域内所有点对距离的最大值对其进行归一化处理.该形状描述子是旋转与尺度不变的, 即不随区域旋转和尺度的变化而变化的.具体的身体部位形状匹配花费$P$定义为

    $ P(f_{k})=\sum\limits_{i} c(i, f_{k}(i)) $

    (2)

    其中, $i$表示各个身体部位的索引值, $f_{k}(i)$为身体部位$i$的候选区域, $c(i, f_{k}(i))$为分配候选区域$f_{k}(i)$给身体部位$i$的花费. $c$为区域$f_{k}(i)$的形状描述子与身体部位$i$的模板之间的最短距离.为了减少候选区域的个数, 提高运算速度, 实验过程中用RANSAC (Random sample consensus)方法去掉背景部分.即取先前若干帧和未来若干帧, 比较它们的SIFT (Scale-invariant feature transform)特征, 由于前景目标往往只占每一帧的一小部分区域, 因此, 前景目标上的SIFT特征点在RANSAC特征匹配中成为野点.匹配过程中, 只匹配背景点, 将当前帧与其前后帧相减并求均值, 得到一个估计的背景, 从而可得到大致的前景区域.当然, 由于受到光照变化、摄像机抖动等外界条件的影响, 视频的背景并非完全静止, 也就是说, 这种去背景的方法并不能保证去掉所有的背景部分.需要说明的是去背景的过程是可选的, 并不会影响最终的分割结果.

    1.1.2   身体部位间的距离(G)

    除了保证每一个身体部位所在的区域有正确的形状之外, 还要确保躯干与四肢之间的距离足够小, 也就是说, 所有的躯干和四肢之间是连接的, 而不是离散的.设$t$为躯干的索引值, $j$为四肢的索引值.计算四肢$j$与躯干之间的最小边界距离$d(f_{k}(j), f_{k}(t))$, 那么身体部位之间的距离则表示为

    $ G(f_{k})=\sum\limits_{j\in L}d(f_{k}(j), f_{k}(t)) $

    (3)

    其中, $L$为四肢的集合.

    1.1.3   身体部位间的重叠(O)

    将身体部位之间的重叠$O$作为惩罚项, 使得各个身体部位之间尽量的展开, 又不会排斥部位之间的重叠, 比如, 我们允许胳膊和躯干之间的重叠, 而当有展开的胳膊和躯干存在时, 会优先选择身体部位展开的情况:

    $ O(f_{k})=\sum\limits_{\{i, j\}\in N}\frac{A(F_{k}(i)\cap F_{k}(j))}{A(F_{k}(i)\cup F_{k}(j))} $

    (4)

    其中, $F_{k}(i)$为第$k$帧内部位$i$的估计区域, $N$为身体部位对的集合, 包括胳膊-胳膊, 腿-腿, 胳膊-躯干, 腿-躯干, 胳膊-腿等部位对, 函数$A$给出了区域的面积.

    1.1.4   身体部位间的面积比(A)

    不同的身体部位, 比如胳膊和腿, 可能会具有相似的形状描述子.因此, 仅通过形状描述子进行约束是不够的, 模型需要更有力的条件来对其进行约束.进一步讲, 尽管不同的部位可能具有相似的形状, 但不同部位的面积比例往往不同且有一定的规律, 是服从高斯分布的, 高斯分布的参数可由训练样本得到:

    $ A(f_{k})=\sum\limits_{i\in P}\sum\limits_{j\in P}\frac{(r(f_{k}(i), f_{k}(j))-\mu _{i, j})^{2}}{\sigma _{i, j}^{2}} $

    (5)

    其中, $r(f_{k}(i), f_{k}(j))$为部位$i$的候选区域$f_{k}(i)$与部位$j$的候选区域$f_{k}(j)$的面积比, $\mu _{i, j}$和$\sigma _{i, j}^{2}$分别为高斯分布的均值与方差. $P$为身体部位的集合.

    除了帧内身体部位的位置比例关系之外, 为了进一步保证运动的光滑性, 还需要进一步考虑相邻帧之间目标的连续性.这里由以下特征来衡量目标在时间上的连续性.

    1.1.5   相邻帧间形状连续性(S)

    通常情况下, 相邻帧之间目标的形状变化往往不大, 而且不会发生快速的变化.这样一来, 目标所在区域轮廓的变化也是光滑的.模型通过衡量身体部位所在区域轮廓变化的光滑性来判断目标形状的连续性$S$.这里, 区域的形状用其边界的朝向直方图[30]来表示.需要说明的是, 这里用朝向直方图而没有用内部距离的原因是不需要保证帧与帧之间目标形状的旋转和尺度不变性, 朝向直方图更适合此种类型的形状匹配.

    设$s_{f_{k}(i)}$为第$k$帧内第$i$个身体部位候选区域$f_{k}(i)$的形状描述子, $s_{f_{k}}$表示第$k$帧内整个前景目标区域的形状描述子, 即其包括了所有的身体部位.形状的连续性特征表示为

    $ \begin{align} &S(f_{k}, f_{k-1})=\nonumber\\&\qquad\sum\limits_{i\in P}\parallel s_{f_{k}(i)}-s_{f_{k-1}(i)}\parallel + \parallel s_{f_{k}}-s_{f_{k-1}}\parallel \end{align} $

    (6)

    注意, 边界朝向直方图没有进行归一化处理, 而且它还包含有区域的大小信息.通过最小化$S$, 可以保证多个视频帧之间所估计目标的形状和大小的连续性.

    1.1.6   相邻帧间位置连续性(L)

    与形状的连续性类似, 同样要求帧与帧之间身体部位的位置不会发生突然的变化.相邻帧之间每个身体部位的位置变化用该部位所在区域中心点的位移来表示.设$l_{f_{k}(i)}$为第$k$帧内第$i$个身体部位的候选区域$f_{k}(i)$的中心位置, 那么该部位位置变化则定义为

    $ L(f_{k}, f_{k-1})=\sum\limits_{i\in P}\parallel l_{f_{k}(i)}-l_{f_{k-1}(i)}\parallel $

    (7)
    1.1.7   相邻帧间颜色连续性(H)

    假设目标的外貌在连续的相邻帧中不会发生突然的变化.颜色的连续性可以保证身体部位的颜色在连续帧中的稳定性.这里, 我们用RGB直方图来量化人身体部位的颜色.颜色选项定义为

    $ H(f_{k}, f_{k-1})=\sum\limits_{i\in P}\parallel h_{f_{k}(i)}-h_{f_{k-1}(i)}\parallel $

    (8)

    其中, $h_{f_{k}(i)}$为第$k$帧中第$i$个身体部位候选区域的颜色直方图.

    通过整合这些特征选项, 可以得到一个完整的能量函数.能量函数的最小化可以保证在每一帧内得到一组最优的身体部位组合.这里所提出的模型是非树形的, 因此, 我们没办法用动态规划直接对能量函数进行优化.另外, 由于无法估算候选区域的个数, 因此无法直接使用贪婪的搜索算法.下一节将提出一种巧妙地将非树形结构转化为树形结构的方法, 从而能够直接用动态规划的方法进行能量函数的优化.

    1.2.1   单帧内最优N个身体部位组合优化过程

    对于视频中的每一帧, 都会产生若干个可能的身体部位组合, 组合的数量是整个优化过程中必须要考虑的问题, 而且每帧中可能组合的数目也是无法事先预知和估算的.如果不对可能的组合进行筛选, 优化运算的时间复杂度会成倍增加.因此, 我们需要一种有效地提取每一帧中最优的$N$个身体部位组合的方法, 其中$N$是动态规划算法中所能驾驭的相对最小值.

    本方法最大的创新之处就在于, 在处理人体各个部位的关系时, 不仅同文献[31]一样要考虑躯干与四肢之间的关系, 还要考虑到四肢之间的关系, 这就使原本的线性结构变成了非线性结构, 从而也增加了选取最优身体部位组合优化过程的难度.下面来分析一下身体各个部位之间的关系.如果我们把两个胳膊看作同一个节点, 两条腿看作同一个节点, 那么躯干、胳膊和腿之间的关系就如图 4(a)所示, 为一个环状结构.对躯干进行复制并将其分开, 即有两个相同但不相连的躯干, 那么图 4(a)中的图模型就转变为图 4(b)中所示的链状结构, 如此一来, 便可以直接用动态规划来对其进行优化, 即如图 4(c)所示, 左右两个躯干为同一个躯干, 每次固定一个候选躯干, 然后用标准的动态规划优化算法选出对于每一个候选躯干最优的胳膊和腿的组合.而对于所有可能的躯干, 把每个躯干得到的身体部位组合进行优劣排序, 最终保留最优的$N$个组合.此时, 对于视频中的每一帧, 可以分别得到$N$个最优的身体部位组合.

    图 4  身体部位关系解析图
    Fig. 4  The relationship of human body parts
    1.2.2   相邻帧间最优身体部位组合优化过程

    根据式(1) 中的能量函数以及图 3中所示的图模型可以看出, 除了要考虑单帧内每一对身体部位之间的相关性及位置关系, 还要考虑相邻帧之间对应身体部位之间的连续性与光滑性. 图 3给出了该方法的图模型, 为一个非树形结构, 我们无法直接用线性的优化方法对其进行优化.而在第1.2.1节中, 每一帧已经产生出了最优的$N$个身体部位组合, 这里, 把每帧中的每一个身体部位组合作为图中的一个节点, 即把图 3中的每一个子图作为一个节点, 把相邻帧中的各个节点用边连接起来, 这些边和节点就会构成一个网格状的图结构, 每个节点的花费由帧内能量函数(如式(1) 中的Intra-frame energy)决定, 每条边上的花费由帧间的能量函数(如式(1) 中的Inter-frame energy)决定.找到一条使得节点花费(帧内能量)和边缘花费(帧间能量)均最小的路径, 路径上所有的节点即为我们想要找的每一帧中最优的身体部位组合.这条最优路径通过动态规划的优化方法得到.假设每一帧中有$N$个可能的身体部位组合, 视频共有$M$帧, 那么该优化过程的时间复杂度为O$(M\times N)$.

    实验中, 我们把该方法应用到颇具挑战性的各种运动视频序列中, 其中包括复杂的人体姿势和各种翻转动作.前四个视频(Video 1, Video 2, $\cdots, $ Video 4) 取自Youtube视频, 最后一个视频(Video 5) 取自HumanEVA数据库[32].下面, 分别给出定性的和定量的实验结果与分析, 以及该模型应用在行人姿势估计上的结果.实验中, 能量函数里控制各分项比重的系数根据不同视频的具体情况分别设定.下面, 对能量函数中各个参数的设置做出具体解释和分析.由于人各种姿势的不同特征, 在考虑各个身体部位之间的关系时应根据不同动作和姿势下各个部位之间的不同关系和规律, 具体问题具体分析.式(1) 所示的能量函数中, Intra-frame energy的各项在整个能量函数中所起的作用大小各不相同, 比如, 在Video 1 ~ Video 4中, 运动目标均完成了翻转或者平转等动作, 此时胳膊和腿的形状会发生较大的变化, 因此, 这种情况下形状匹配花费$P$就会被设置较小的比重.而在Video 5中, 包含了行人行走的各个朝向, 此时胳膊与躯干之间总会处于相互重叠的状态, 那么在这种情况下, 身体部位间的重叠项$O$就会被设置较小的比重.而对于Inter-frame energy中的各项, 帧与帧之间目标形状、位置以及颜色的连续性均不会受到运动目标姿势的影响, 因此, 对于所有的测试视频, 这其中各项都会设置为相同的比重系数.对于$N$的选择, 无论是在选取单帧中最优的$N$个身体部位组合时, 还是在选择每一帧中最优的那一组身体部位组合, 都使用的是动态规划的优化方法.能量分值最小的未必是最优的那一个组合, 因此实验中会选择多个可能的身体部位及其组合参与优化过程.然而每个阶段的节点数目过大会影响到优化速度, 但如果$N$值选的太小(小于10) 运算结果的准确性又会受到一定程度的影响.经过反复实验, 我们选择了一个既不会对运算速度有太大影响, 又不会降低运算结果准确度的$N$值, 这里设置$N$为100.

    我们用文献[28]提出的区域提取方法得到各个可能的候选身体部位所在的区域.用第1.1.1节中提到的RANSAC方法进行去背景处理, 由于受到光照、摄像机抖动等因素的影响, 视频的背景并非完全静止不动, 因此, 这个方法不能去掉所有的背景区域, 而且, 目标的影子会随目标的运动而运动(本方法中, 前景目标的影子也被视为背景)也不能被去除, 换句话说, RANSAC方法只能去掉完全静止不动的背景区域.举两个比较典型的去背景后的例子, 如图 5所示, 第一个例子中(图 5中第一行), 由于摄像机的抖动, 发生抖动的背景区域并不能被去掉, 而第二个例子中(图 5中第二行), 人的影子随人的运动而运动, 也被误认为是前景部分.需要说明的是, 去背景与否并不会影响到我们最终的实验结果.部分去背景虽然减少了大部分的背景噪音, 但是我们仍可以得到一个相对比较干净的前景区域, 这对于提高检测各个身体部位的运算速度有很大的帮助, 但是诸如影子等无法被去掉的背景噪音对我们的检测也是一个非常大的挑战. 图 6给出了分别在5段视频上的分割结果, 包括了不同的运动姿势, 比如, 跳、翻转、倒立、平转以及正常行走等.所给出的帧均等间距的采样于整个视频.从分割结果中可以看出, 即使是在比较有挑战性的、姿势变化较大的运动视频上, 该模型也可以得到不错的分割结果.

    图 5  去背景后效果图
    Fig. 5  Results after background removed
    图 6  本方法在5段测试视频上的部分分割结果
    Fig. 6  Sample results of proposed methods on five test videos

    当然, 从实验结果中我们也可以看出, 最终视频分割结果的好坏很大程度上还依赖于提议(Proposals)检测的准确与否.比如, 图 6中第6行第3列Video 3中的分割结果, 胳膊与躯干被同时检测为躯干, 此时头部则被误认为是胳膊, 同样, 图 6中第8行第3列Video 4中的分割结果也是如此.这也是接下来的工作中需要改进和增强之处.

    我们也与目前较新的类似的视频分割方法做了定性的对比与分析.大部分的视频分割方法[33]基于视频帧图像的底层特征将视频分割成时间上连续的立体超像素块(Supervoxel), 没有考虑视频中前景目标的语义信息以及上下文关系, 并且, 其分割结果在很大程度上依赖于分割阈值的大小, 阈值选的越大, 分割结果越细; 相反, 分割结果会越粗.文献[34]所提出的基于时空特性的前景目标提议的检测方法把2D的目标提议检测方法扩展到具有时间连续性的视频数据中, 从而得到立体的超像素块, 可以正确地检测出视频中的前景目标.该方法利用颜色[35]、光流[36]等特征, 以及时间的连续性, 光流梯度和边缘在相邻帧间的位移等信息对视频进行分层分割, 如图 7中第2行至第6行所示, 为不同分割阈值下的分割结果, 从上到下分割阈值依次增大.对这些在不同阈值下得到的分割结果进行合并聚类, 进而得到较为理想的目标所在的区域, 如图 7中第7行所示(图 7中所示为去背景后的结果).由于测试视频背景为静止状态, 因此, 分割和检测结果不受是否进行去背景操作的影响.然而, 该方法并未考虑前景目标本身各个组成部分的结构和比例关系, 如图 7中第7行的结果所示, 无法解决影子对前景目标检测分割结果的影响, 图 7第8行为本文的分割结果.另外, 该方法并没有对目标的各个组成部分所在的区域进行语义标注, 因此, 实验中并未与本文的方法进行定量的比较.

    图 7  文献[31]的方法与本方法测试结果对比示例
    Fig. 7  Example results of the method in [31] and proposed method

    该实验把本文所提出的方法与文献[31]中提出的nbest的方法进行定量的比较分析, 即分别把该方法得到的分割结果和nbest方法得到的结果与Ground truth (GT), 也就是手工标注的真实的身体部位所在的区域相比较.

    nbest[31]方法利用构成人体各个部位之间的“图案结构”对于人体的各个组成部分进行检测, 该结构最大的问题就是只考虑到了躯干与四肢之间的位置关系, 而忽略了四肢之间的关系, 因此, 对于直立状态的人体而言, 该方法可以得到较好的检测结果, 而对于发生旋转的、非直立状态的人体而言, 该方法很难奏效.如图 8所示, 为nbest方法对非直立姿势的人体的检测结果, 图中第1列为原始视频帧, 第2列为nbest方法的检测结果, 不同颜色的矩形框表示不同的身体部位, 第3列为本文所提出的方法的检测结果.

    图 8  nbest方法检测结果与本方法结果示例
    Fig. 8  Example results of nbest method and proposed method

    为了公平起见, 实验中同样对nbest方法的输入数据也进行去背景操作.另外, 我们的方法得到的是分割的区域, 而nbest方法得到的是每个身体部位区域所在的矩形绑定框, 因此, 我们按照一定的合适的比例扩张nbest方法得到的矩形区域的中轴线, 使矩形区域腐蚀为一定比例的圆柱形区域, 让这个圆柱形区域无限地接近身体部位所在的分割区域.由于nbest方法[31]不是尺度和旋转不变的, 它对于翻转幅度比较大的情况得到的实验结果会很差.而本文提出的方法恰恰克服了这一点, 不论目标发生如何旋转和尺度的变化, 均可以得到可靠的分割结果.

    对于每一个身体部位所在的区域, 这里定义了一个匹配分值, ${A(P\cap G)\setminus A(P\cup G)}$, 其中, $P$是分割得到的身体部位所在的区域, $G$为对应的真实身体部位所在的区域, $A$为区域的面积函数. 表 1中给出了本方法与文献[31]所提出的nbest方法对相同视频检测结果的比较分值.无论哪种运动情况, 该方法的结果均比nbest方法要改进和提升很多.对于整体的平均检测和分割结果, 我们的方法依旧要优于所比较的方法.

    表 1  该方法和nbest方法分别与GT的比较结果
    Table 1  Comparison of proposed method and GT, nbest method and GT
    nbest Ours nbest Ours nbest Ours nbest Ours nbest Ours
    Arms Arms Legs Legs Torso Torso All All Mean Mean
    Video 1 13.96 % 25.90 % 45.30 % 37.37 % 24.99 % 40.31 % 45.70 % 62.45 % 32.49 % 41.51 %
    Video 2 12.15 % 32.49 % 24.71 % 43.87 % 42.61 % 56.41 % 38.47 % 62.43 % 29.49 % 48.80 %
    Video 3 12.62 % 25.00 % 42.69 % 42.99 % 45.41 % 44.03 % 48.75 % 67.98 % 37.37 % 45.00 %
    Video 4 22.54 % 25.93 % 44.76 % 54.29 % 51.20 % 53.81 % 50.21 % 67.77 % 42.18 % 50.45 %
    Video 5 22.29 % 56.10 % 65.32 % 64.17 % 49.75 % 63.18 % 62.96 % 84.58 % 50.08 % 67.01 %
    Mean 16.71 % 33.08 % 44.56 % 48.54 % 42.79 % 51.55 % 49.22 % 69.04 % 38.32 % 50.55 %
    下载: 导出CSV 
    | 显示表格

    图 9给出了本文提出的方法与nbest方法实验结果的正确率曲线, 其中包括单个身体部位以及整个人体的正确率.每条检测曲线都给出了所检测到的高于某一阈值的正确的身体部位占整个检测结果的比例.比该阈值高的均认为是正确的检测结果.并且, 当阈值为$1$时, 检测结果的正确率为$0$, 而阈值为$0$时, 检测结果正确率为$1$.从图 9的正确率曲线不难看出, 该方法得到结果的正确率明显高于nbest方法.

    图 9  该方法与nbest方法实验结果的正确率曲线图
    Fig. 9  Detection rate comparisons of nbest and proposed method

    由于该方法分割结果的特殊性, 以及行人正常行走姿势的规律性, 可将其应用到行人的姿势估计上.分割结果可分为上身和下身两部分, 躯干与胳膊属于上身, 腿属于下身.根据直立行走的行人身体各个部位的比例位置关系, 可以找到行人身体上可能的各个关节点, 比如, 肩膀、肘部、手腕、臀部、膝盖和脚踝等.然后, 用扩展动态规划(Extended dynamic programming)的方法求得各个最优的关节点, 从而得到行人的姿势.

    这里, 每一对相邻的关节点被看作是动态规划中的一个状态.所用到的各种约束条件包括两相邻关节点之间距离与行人高度比、两相邻状态之间的内夹角, 以及两相邻状态连线与对应身体部位所在区域轮廓之间的平行性.另外, 还需要考虑当前状态与先前状态的连续性和上身关节点与下身关节点的对齐, 进而估计出不同朝向行人的关节点, 用大小不同的原点表示关节点, 关节点越大表示其离摄像头距离越近; 反之越远. 图 10给出了在本方法分割结果的基础上, 4个不同朝向的行人姿势估计结果, 图中第1行到第4行分别为正面、背面、左面和右面4个朝向.

    图 10  行人姿势估计结果
    Fig. 10  Pedestrian pose estimation results

    本文提出了一种新的人身体部位所在区域的视频分割方法.该方法不需要任何初始化, 对于各种旋转与尺度的变化都具有较好的鲁棒性.实验中分别对该方法进行了定性和定量的分析比较, 实验结果表明, 与类似的方法相比, 该方法不仅适用于直立行走的行人, 对各种姿势的人也可以得到较好的实验结果.另外, 还试将行人视频的分割结果应用到行人行走姿势的估计中, 为进一步行人异常行为的分析奠定了良好的基础.当然, 针对实验中出现的不足, 比如如何提高提议(Proposals)的准确率等问题, 也是接下来的工作中需要解决的.另外, 在接下来的工作中, 会在该工作的基础上继续进行体育、舞蹈等运动视频中目标姿势的估计与分析, 以及其在智能视频监控与人机交互领域的应用.


  • 1 混杂因子指的是系统中两个变量未观测到的直接原因.
  • 2 马尔科夫等价类指的是满足相同条件独立性的一组因果结构.
  • 3 遗憾值指的是实际算法的累计损失和理性算法的最小损失之间的差值.
  • 图  1  强化学习框图

    Fig.  1  The framework of reinforcement learning

    图  2  结构因果模型及其组成部分

    Fig.  2  Structural causal model

    图  3  在倒立摆系统中提取系统变量之间的因果关系

    Fig.  3  Causal representation in cart pole system

    图  4  因果技术在强化学习控制系统各环节的应用

    Fig.  4  The application of causality in reinforcement learning control system

    图  5  MDP和POMDP的数据生成过程

    Fig.  5  Data generation process in MDP and POMDP

    表  1  强化学习算法分类及其特点

    Table  1  Classification of reinforcement learning algorithms

    强化学习方法具体分类代表性模型算法特点
    模型已知AlphaZero[24], ExIt[25]状态转移模型已知, 现实场景下不易实现
    有模型强化学习模型可学习: 结构化数据PILCO[29]数据利用率高, 适用于低维状态空间
    模型可学习: 非结构化数据E2C[33], DSA[34]与机器学习相结合, 适用于高维冗余状态空间
    基于值函数的方法SARSA[37], 深度Q网络[36, 39]采样效率高, 但是无法实现连续控制
    无模型强化学习基于策略梯度的方法PG[44], TRPO[45], PPO[46]对策略进行更新, 适用于连续或高维动作空间
    两者结合的方法DDPG[47], Actor-Critic[48]包含两个网络, 分别更新值函数和策略函数
    下载: 导出CSV

    表  2  因果理论研究内容

    Table  2  Classification of causality research

    研究内容具体分类代表算法算法特点
    没有混杂因子的干预类估计回归调整[60], 倾向得分方法[61]对样本采取适当的调整措施
    因果效应估计存在混杂因子的干预类估计前门调整[62], 后门调整[62]借助额外的假设进行估计
    反事实推理标准三步骤[63]回答反事实问题
    基于条件约束的方法PC[64], FCI[67]基于条件独立性假设
    因果关系发现基于分数的方法GES[70], FGES[71]基于评分标准对因果图打分
    基于函数因果模型的方法LiNGAM[74], ANM[7576], PNL[7778]需要对函数类型作出假设
    下载: 导出CSV

    表  3  因果强化学习算法总结

    Table  3  The classification of causal reinforcement learning algorithms

    研究内容代表算法解决问题
    因果表征提取ASR[83], CCPM[84], MABUC[88], B-kl-UCB[89]对高维冗余的原始数据进行因果结构化表征
    环境因果模型AdaRL[95], CCRL[97], IAEM[98], OREO[102]在非平稳或异构环境中构建可迁移的环境因果模型
    动作效果估计CEHRL[103], SDCI[104], 倾向性评分[109], FCB[110]量化智能体动作对于环境的影响, 获得数据的无偏估计
    反事实动作推理CF-GPS[111], 反事实数据增强[81]提高算法的样本效率和可解释性
    下载: 导出CSV
  • [1] 孙长银, 吴国政, 王志衡, 丛杨, 穆朝絮, 贺威. 自动化学科面临的挑战. 自动化学报, 2021, 47(2): 464-474

    Sun Chang-Yin, Wu Guo-Zheng, Wang Zhi-Heng, Cong Yang, Mu Chao-Xu, He Wei. On challenges in automation science and technology. Acta Automatica Sinica, 2021, 47(2): 464-474
    [2] Silver D, Huang A, Maddison C J, Guez A, Sifre L, van den Driessche G, et al. Mastering the game of go with deep neural networks and tree search. Nature, 2016, 529(7587): 484-489 doi: 10.1038/nature16961
    [3] Vinyals O, Babuschkin I, Czarnecki W M, Mathieu M, Dudzik A, Chung J, et al. Grandmaster level in starcraft II using multi-agent reinforcement learning. Nature, 2019, 575(7782): 350-354 doi: 10.1038/s41586-019-1724-z
    [4] Brown N, Sandholm T. Superhuman AI for multiplayer poker. Science, 2019, 365(6456): 885-890 doi: 10.1126/science.aay2400
    [5] Wurman P R, Barrett S, Kawamoto K, MacGlashan J, Subramanian K, Walsh T J, et al. Outracing champion Gran Turismo drivers with deep reinforcement learning. Nature, 2022, 602(7896): 223-228 doi: 10.1038/s41586-021-04357-7
    [6] Wei F R, Wan Z Q, He H B. Cyber-attack recovery strategy for smart grid based on deep reinforcement learning. IEEE Transactions on Smart Grid, 2020, 11(3): 2476-2486 doi: 10.1109/TSG.2019.2956161
    [7] Zhang D X, Han X Q, Deng C Y. Review on the research and practice of deep learning and reinforcement learning in smart grids. CSEE Journal of Power and Energy Systems, 2018, 4(3): 362-370 doi: 10.17775/CSEEJPES.2018.00520
    [8] Liang X D, Wang T R, Yang L N, Xing E. CIRL: Controllable imitative reinforcement learning for vision-based self-driving. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 604−620
    [9] El Sallab A, Abdou M, Perot E, Yogamani S. Deep reinforcement learning framework for autonomous driving. arXiv: 1704.02532, 2017.
    [10] Kober J, Bagnell J A, Peters J. Reinforcement learning in robotics: A survey. The International Journal of Robotics Research, 2013, 32(11): 1238-1274 doi: 10.1177/0278364913495721
    [11] 陈锦涛, 李鸿一, 任鸿儒, 鲁仁全. 基于 RRT 森林算法的高层消防无人机室内协同路径规划. 自动化学报, DOI: 10.16383/j.aas.c210368

    Chen Jin-Tao, Li Hong-Yi, Ren Hong-Ru, Lu Ren-Quan. Cooperative indoor path planning of multi-UAVs for high-rise fire fighting based on RRT-forest algorithm. Acta Automatica Sinica, DOI: 10.16383/j.aas.c210368
    [12] 李鸿一, 王琰, 姚得银, 周琪, 鲁仁全. 基于事件触发机制的多四旋翼无人机鲁棒自适应滑模姿态控制. 中国科学: 信息科学, 2023, 53(1): 66-80

    Li Hong-Yi, Wang Yan, Yao De-Yin, Zhou Qi, Lu Ren-Quan. Robust adaptive sliding mode attitude control of MQUAVs based on event-triggered mechanism. SCIENTIA SINICA Informationis, 2023, 53(1): 66-80
    [13] 李家宁, 熊睿彬, 兰艳艳, 庞亮, 郭嘉丰, 程学旗. 因果机器学习的前沿进展综述. 计算机研究与发展, 2023, 60(1): 59-84 doi: 10.7544/issn1000-1239.202110780

    Li Jia-Ning, Xiong Rui-Bin, Lan Yan-Yan, Pang Liang, Guo Jia-Feng, Cheng Xue-Qi. Overview of the frontier progress of causal machine learning. Journal of Computer Research and Development, 2023, 60(1): 59-84 doi: 10.7544/issn1000-1239.202110780
    [14] Zhang A, Ballas N, Pineau J. A dissection of overfitting and generalization in continuous reinforcement learning. arXiv: 1806.07937, 2018.
    [15] Zhang C Y, Vinyals O, Munos R, Bengio S. A study on overfitting in deep reinforcement learning. arXiv: 1804.06893, 2018.
    [16] AAAI-20 tutorial representation learning for causal inference [Online], available: http://cobweb.cs.uga.edu/~shengli/AAAI20-Causal-Tutorial.html, February 8, 2020
    [17] Causal reinforcement learning [Online], available: https://crl.causalai.net/, December 24, 2022
    [18] Elements of reasoning: Objects, structure, and causality: Virtual ICLR 2022 workshop [Online], available: https://objects-structure-causality.github.io/, April 29, 2022
    [19] NeurIPS 2018 workshop on causal learning [Online], available: https://sites.google.com/view/nips2018causallearning/home, December 7, 2018
    [20] Thomas M. Moerland, Joost Broekens, Aske Plaat and Catholijn M. Jonker (2023), “Model-based Reinforcement Learning: A Survey”, Foundations and Trends® in Machine Learning: Vol. 16: No. 1, pp 1−118. http://dx.doi.org/10.1561/2200000086 doi: 10.1561/2200000086
    [21] Yi F J, Fu W L, Liang H. Model-based reinforcement learning: A survey. In: Proceedings of the 18th International Conference on Electronic Business. Guilin, China: 2018. 421−429
    [22] Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: A survey. Journal of Artificial Intelligence Research, 1996, 4(1): 237-285
    [23] Wang H N, Liu N, Zhang Y Y, Feng D W, Huang F, Li D S, et al. Deep reinforcement learning: A survey. Frontiers of Information Technology & Electronic Engineering, 2020, 21(12): 1726-1744
    [24] Silver D, Hubert T, Schrittwieser J, Antonoglou I, Lai M, Guez A, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 2018, 362(6419): 1140-1144 doi: 10.1126/science.aar6404
    [25] Anthony T, Zheng T, Barber D. Thinking fast and slow with deep learning and tree search. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 5366−5376
    [26] Schmidhuber J, Huber R. Learning to generate artificial fovea trajectories for target detection. International Journal of Neural Systems, 1991, 2(01n02): 125-134 doi: 10.1142/S012906579100011X
    [27] Schmidhuber J. An on-line algorithm for dynamic reinforcement learning and planning in reactive environments. In: Proceedings of the International Joint Conference on Neural Networks. San Diego, USA: IEEE, 1990. 253−258
    [28] Parr R, Li L H, Taylor G, Painter-Wakefield C, Littman M L. An analysis of linear models, linear value-function approximation, and feature selection for reinforcement learning. In: Proceedings of the 25th International Conference on Machine Learning. Helsinki, Finland: ACM, 2008. 752−759
    [29] Deisenroth M P, Rasmussen C E. PILCO: A model-based and data-efficient approach to policy search. In: Proceedings of the 28th International Conference on Machine Learning. Bellevue, USA: Omnipress, 2011. 465−472
    [30] Hester T, Stone P. TEXPLORE: Real-time sample-efficient reinforcement learning for robots. Machine Learning, 2013, 90(3): 385-429 doi: 10.1007/s10994-012-5322-7
    [31] Müller K R, Smola A J, Rätsch G, Schölkopf B, Kohlmorgen J, Vapnik V. Predicting time series with support vector machines. In: Proceedings of the 7th International Conference on Artificial Neural Networks. Lausanne, Switzerland: Springer, 1997. 999−1004
    [32] Gal Y, McAllister R, Rasmussen C E. Improving PILCO with Bayesian neural network dynamics models. In: Proceedings of the Data-Efficient Machine Learning Workshop, International Conference on Machine Learning. ICML, 2016. 25
    [33] Watter M, Springenberg J T, Boedecker J, Riedmiller M. Embed to control: A locally linear latent dynamics model for control from raw images. In: Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2015. 2746−2754
    [34] Finn C, Tan X Y, Duan Y, Darrell T, Levine S, Abbeel P. Deep spatial autoencoders for visuomotor learning. In: Proceedings of the IEEE International Conference on Robotics and Automation. Stockholm, Sweden: IEEE, 2016. 512−519
    [35] Guzdial M, Li B Y, Riedl M O. Game engine learning from video. In: Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia: IJCAI.org, 2017. 3707−3713
    [36] Mnih V, Kavukcuoglu K, Silver D, Graves A, Antonoglou I, Wierstra D, et al. Playing Atari with deep reinforcement learning. arXiv: 1312.5602, 2013.
    [37] Singh S, Jaakkola T, Littman M L, Szepesvári C. Convergence results for single-step on-policy reinforcement-learning algorithms. Machine Learning, 2000, 38(3): 287-308 doi: 10.1023/A:1007678930559
    [38] Watkins C J C H, Dayan P. Q-learning. Machine Learning, 1992, 8(3-4): 279-292 doi: 10.1007/BF00992698
    [39] Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, et al. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529-533 doi: 10.1038/nature14236
    [40] Wang Z Y, Schaul T, Hessel M, van Hasselt H, Lanctot M, de Freitas N. Dueling network architectures for deep reinforcement learning. In: Proceedings of the 33rd International Conference on Machine Learning. New York, USA: JMLR.org, 2016. 1995−2003
    [41] van Hasselt H, Guez A, Silver D. Deep reinforcement learning with double Q-learning. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix, USA: AAAI, 2016. 2094−2100
    [42] Fortunato M, Azar M G, Piot B, Menick J, Hessel M, Osband I, et al. Noisy networks for exploration. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: OpenReview.net, 2018.
    [43] Bellemare M G, Dabney W, Munos R. A distributional perspective on reinforcement learning. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: PMLR, 2017. 449−458
    [44] Silver D, Lever G, Heess N, Degris T, Wierstra D, Riedmiller M. Deterministic policy gradient algorithms. In: Proceedings of the 31st International Conference on Machine Learning. Beijing, China: PMLR, 2014. 387−395
    [45] Schulman J, Levine S, Abbeel P, Jordan M, Moritz P. Trust region policy optimization. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLR.org, 2015. 1889−1897
    [46] Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O. Proximal policy optimization algorithms. arXiv: 1707.06347, 2017.
    [47] Lillicrap T P, Hunt J J, Pritzel A, Heess N, Erez T, Tassa Y, et al. Continuous control with deep reinforcement learning. In: Proceedings of the 4th International Conference on Learning Representations. San Juan, Puerto Rico: ICLR, 2016.
    [48] Mnih V, Badia A P, Mirza M, Graves A, Lillicrap T, Harley T, et al. Asynchronous methods for deep reinforcement learning. In: Proceedings of the 33rd International Conference on Machine Learning. New York, USA: JMLR.org, 2016. 1928−1937
    [49] Haarnoja T, Zhou A, Abbeel P, Levine S. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In: Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: PMLR, 2018. 1861−1870
    [50] Zhang K, Huang B W, Zhang J J, Glymour C, Schölkopf B. Causal discovery from nonstationary/heterogeneous data: Skeleton estimation and orientation determination. In: Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia: IJCAI.org, 2017. 1347−1353
    [51] Szegedy C, Zaremba W, Sutskever I, Bruna J, Erhan D, Goodfellow I J, et al. Intriguing properties of neural networks. In: Proceedings of the 2nd International Conference on Learning Representations. Banff, Canada: ICLR, 2014.
    [52] Kuang K, Li L, Geng Z, Xu L, Zhang K, Liao B S, et al. Causal inference. Engineering, 2020, 6(3): 253-263 doi: 10.1016/j.eng.2019.08.016
    [53] Shen X P, Ma S S, Vemuri P, Simon G, Alzheimer's Disease Neuroimaging Initiative. Challenges and opportunities with causal discovery algorithms: Application to Alzheimer's pathophysiology. Scientific Reports, 2020, 10(1): Article No. 2975
    [54] Eberhardt F. Introduction to the foundations of causal discovery. International Journal of Data Science and Analytics, 2017, 3(2): 81-91 doi: 10.1007/s41060-016-0038-6
    [55] Nogueira A R, Gama J, Ferreira C A. Causal discovery in machine learning: Theories and applications. Journal of Dynamics and Games, 2021, 8(3): 203-231 doi: 10.3934/jdg.2021008
    [56] Guo R C, Cheng L, Li J D, Hahn P R, Liu H. A survey of learning causality with data: Problems and methods. ACM Computing Surveys, 2020, 53(4): Article No. 75
    [57] Zhang K, Schölkopf B, Spirtes P, Glymour C. Learning causality and causality-related learning: Some recent progress. National Science Review, 2018, 5(1): 26-29 doi: 10.1093/nsr/nwx137
    [58] Peters J, Janzing D, Schölkopf B. Elements of Causal Inference: Foundations and Learning Algorithms. Cambridge: The MIT Press, 2017.
    [59] Bhide A, Shah P S, Acharya G. A simplified guide to randomized controlled trials. Acta Obstetricia et Gynecologica Scandinavica, 2018, 97(14): 380-387
    [60] Vansteelandt S, Daniel R M. On regression adjustment for the propensity score. Statistics in Medicine, 2014, 33(23): 4053-4072 doi: 10.1002/sim.6207
    [61] Austin P C. An introduction to propensity score methods for reducing the effects of confounding in observational studies. Multivariate Behavioral Research, 2011, 46(3): 399-424 doi: 10.1080/00273171.2011.568786
    [62] Pearl J. Causality (Second edition). New York: Cambridge University Press, 2009.
    [63] Pearl J, Glymour M, Jewell N P. Causal Inference in Statistics: A Primer. Chichester: John Wiley & Sons, 2016.
    [64] Spirtes P, Glymour C N, Scheines R. Causation, Prediction, and Search (Second edition). Cambridge: MIT Press, 2000.
    [65] Colombo D, Maathuis M H. Order-independent constraint-based causal structure learning. The Journal of Machine Learning Research, 2014, 15(1): 3741-3782
    [66] Le T D, Hoang T, Li J Y, Liu L, Liu H W, Hu S. A fast PC algorithm for high dimensional causal discovery with multi-core PCs. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2016, 16(5): 1483-1495
    [67] Spirtes P L, Meek C, Richardson T S. Causal inference in the presence of latent variables and selection bias. In: Proceedings of the 11th Conference on Uncertainty in Artificial Intelligence. Montreal, Canada: Morgan Kaufmann, 1995. 499−506
    [68] Colombo D, Maathuis M H, Kalisch M, Richardson T S. Learning high-dimensional directed acyclic graphs with latent and selection variables. The Annals of Statistics, 2012, 40(1): 294-321
    [69] Zhang K, Peters J, Janzing D, Schölkopf B. Kernel-based conditional independence test and application in causal discovery. In: Proceedings of the 27th Conference on Uncertainty in Artificial Intelligence. Barcelona, Spain: AUAI Press, 2011.
    [70] Chickering D M. Optimal structure identification with greedy search. The Journal of Machine Learning Research, 2003, 3: 507-554
    [71] Ramsey J D. Scaling up greedy causal search for continuous variables. arXiv: 1507.07749, 2015.
    [72] Hauser A, Bühlmann P. Characterization and greedy learning of interventional markov equivalence classes of directed acyclic graphs. Journal of Machine Learning Research, 2012, 13(79): 2409-2464
    [73] Ogarrio J M, Spirtes P, Ramsey J. A hybrid causal search algorithm for latent variable models. In: Proceedings of the 8th Conference on Probabilistic Graphical Models. Lugano, Switzerland: JMLR.org, 2016. 368−379
    [74] Shimizu S, Hoyer P O, Hyvärinen A, Kerminen A. A linear non-Gaussian acyclic model for causal discovery. The Journal of Machine Learning Research, 2006, 7: 2003-2030
    [75] Hoyer P O, Janzing D, Mooij J, Peters J, Schölkopf B. Nonlinear causal discovery with additive noise models. In: Proceedings of the 21st International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2008. 689−696
    [76] Hoyer P O, Hyvärinen A, Scheines R, Spirtes P L, Ramsey J, Lacerda G, et al. Causal discovery of linear acyclic models with arbitrary distributions. In: Proceedings of the 24th Conference on Uncertainty in Artificial Intelligence. Helsinki, Finland: AUAI Press, 2008. 282−289
    [77] Zhang K, Hyvärinen A. On the identifiability of the post-nonlinear causal model. In: Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence. Montreal, Canada: AUAI Press, 2009. 647−655
    [78] Zhang K, Chan L W. Extensions of ICA for causality discovery in the Hong Kong stock market. In: Proceedings of the 13th International Conference on Neural Information Processing. Hong Kong, China: Springer, 2006. 400−409
    [79] Sun Y W, Zhang K, Sun C Y. Model-based transfer reinforcement learning based on graphical model representations. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(2): 1035-1048 doi: 10.1109/TNNLS.2021.3107375
    [80] Huang B W, Zhang K, Zhang J J, Sanchez-Romero R, Glymour C, Schölkopf B. Behind distribution shift: Mining driving forces of changes and causal arrows. In: Proceedings of the IEEE International Conference on Data Mining. New Orleans, USA: IEEE, 2017. 913−918
    [81] Lu C C, Huang B W, Wang K, Hernández-Lobato J M, Zhang K, Schölkopf B. Sample-efficient reinforcement learning via counterfactual-based data augmentation. arXiv: 2012.09092, 2020.
    [82] Yao W R, Sun Y W, Ho A, Sun C Y, Zhang K. Learning temporally causal latent processes from general temporal. In: Proceedings of the 10th International Conference on Learning Representations. Virtual: ICLR, 2022.
    [83] Huang B W, Lu C C, Liu L Q, Hernández-Lobato J M, Glymour C, Schölkopf B, et al. Action-sufficient state representation learning for control with structural constraints. In: Proceedings of the 39th International Conference on Machine Learning. Baltimore, USA: PMLR, 2022. 9260−9279
    [84] Rezende D J, Danihelka I, Papamakarios G, Ke N R, Jiang R, Weber T, et al. Causally correct partial models for reinforcement learning. arXiv: 2002.02836, 2020.
    [85] Sontakke S A, Mehrjou A, Itti L, Schölkopf B. Causal curiosity: RL agents discovering self-supervised experiments for causal representation learning. In: Proceedings of the 38th International Conference on Machine Learning. Virtual: PMLR, 2021. 9848−9858
    [86] Gasse M, Grasset D, Gaudron G, Oudeyer P Y. Causal reinforcement learning using observational and interventional data. arXiv: 2106.14421, 2021.
    [87] Zhang A, Lipton Z C, Pineda L, Azizzadenesheli K, Anandkumar A, Itti L, et al. Learning causal state representations of partially observable environments. arXiv: 1906.10437, 2019.
    [88] Bareinboim E, Forney A, Pearl J. Bandits with unobserved confounders: A causal approach. In: Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2015. 1342−1350
    [89] Zhang J Z, Bareinboim E. Transfer learning in multi-armed bandit: A causal approach. In: Proceedings of the 16th Conference on Autonomous Agents and MultiAgent Systems. São Paulo, Brazil: ACM, 2017. 1778−1780
    [90] Lu C C, Schölkopf B, Hernández-Lobato J M. Deconfounding reinforcement learning in observational settings. arXiv: 1812.10576, 2018.
    [91] Zhang J Z. Designing optimal dynamic treatment Regimes: A causal reinforcement learning approach. In: Proceedings of the 37th International Conference on Machine Learning. Article No. 1021
    [92] Wang L X, Yang Z R, Wang Z R. Provably efficient causal reinforcement learning with confounded observational data. In: Proceedings of the 35th Conference on Neural Information Processing Systems. NeurIPS, 2021. 21164−21175
    [93] Taylor M E, Stone P. Transfer learning for reinforcement learning domains: A survey. The Journal of Machine Learning Research, 2009, 10: 1633-1685
    [94] Schölkopf B, Locatello F, Bauer S, Ke N R, Kalchbrenner N, Goyal A, et al. Toward causal representation learning. Proceedings of the IEEE, 2021, 109(5): 612-634 doi: 10.1109/JPROC.2021.3058954
    [95] Huang B W, Fan F, Lu C C, Magliacane S, Zhang K. ADARL: What, where, and how to adapt in transfer reinforcement learning. In: Proceedings of the 10th International Conference on Learning Representations. Virtual: ICLR, 2022.
    [96] Zhang A, Lyle C, Sodhani S, Filos A, Kwiatkowska M, Pineau J, et al. Invariant causal prediction for block MDPs. In: Proceedings of the 37th International Conference on Machine Learning. Shenzhen, China: PMLR, 2020. 11214−11224
    [97] Eghbal-zadeh H, Henkel F, Widmer G. Learning to infer unseen contexts in causal contextual reinforcement learning. In: Proceedings of the Self-Supervision for Reinforcement Learning. 2021.
    [98] Zhu Z M, Jiang S Y, Liu Y R, Yu Y, Zhang K. Invariant action effect model for reinforcement learning. In: Proceedings of the 36th AAAI Conference on Artificial Intelligence. Virtual: AAAI, 2022. 9260−9268
    [99] de Haan P, Jayaraman D, Levine S. Causal confusion in imitation learning. In: Proceedings of the 33rd Conference on Neural Information Processing Systems. Vancouver, Canada: NeurIPS, 2019. 11693−11704
    [100] Etesami J, Geiger P. Causal transfer for imitation learning and decision making under sensor-shift. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 10118−10125
    [101] Zhang J Z, Kumor D, Bareinboim E. Causal imitation learning with unobserved confounders. In: Proceedings of the 34th Conference on Neural Information Processing Systems. Vancouver, Canada: NeurIPS, 2020. 12263−12274
    [102] Park J, Seo Y, Liu C, Zhao L, Qin T, Shin J, et al. Object-aware regularization for addressing causal confusion in imitation learning. In: Proceedings of the 35th Conference on Neural Information Processing Systems. NeurIPS, 2021. 3029−3042
    [103] Corcoll O, Vicente R. Disentangling causal effects for hierarchical reinforcement learning. arXiv: 2010.01351, 2020.
    [104] Seitzer M, Schölkopf B, Martius G. Causal influence detection for improving efficiency in reinforcement learning. In: Proceedings of the 35th Conference on Neural Information Processing Systems. NeurIPS, 2021. 22905−22918
    [105] Pitis S, Creager E, Garg A. Counterfactual data augmentation using locally factored dynamics. In: Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2020. Article No. 335
    [106] Herlau T, Larsen R. Reinforcement learning of causal variables using mediation analysis. In: Proceedings of the 36th AAAI Conference on Artificial Intelligence. Virtual: AAAI, 2022. 6910−6917
    [107] Precup D, Sutton R S, Singh S. Eligibility traces for off-policy policy evaluation. In: Proceedings of the 17th International Conference on Machine Learning. Stanford, USA: Morgan Kaufmann, 2000. 759−766
    [108] Atan O, Zame W R, van der Schaar M. Learning optimal policies from observational data. arXiv: 1802.08679, 2018.
    [109] Swaminathan A, Joachims T. Counterfactual risk minimization: Learning from logged bandit feedback. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLR.org, 2015. 814−823
    [110] Zou H, Kuang K, Chen B Q, Chen P X, Cui P. Focused context balancing for robust offline policy evaluation. In: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Anchorage, USA: ACM, 2019. 696−704
    [111] Buesing L, Weber T, Zwols Y, Racanière S, Guez A, Lespiau J B, et al. Woulda, coulda, shoulda: Counterfactually-guided policy search. In: Proceedings of the 7th International Conference on Learning Representations. New Orleans, USA: OpenReview.net, 2019.
    [112] Madumal P, Miller T, Sonenberg L, Vetere F. Explainable reinforcement learning through a causal lens. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 2493−2500
    [113] Liang J C, Boularias A. Inferring time-delayed causal relations in POMDPs from the principle of independence of cause and mechanism. In: Proceedings of the 30th International Joint Conference on Artificial Intelligence. Montreal, Canada: IJCAI.org, 2021. 1944−1950
    [114] Bottou L, Peters J, Quiñonero-Candela J, Charles D X, Chickering D M, Portugaly E, et al. Counterfactual reasoning and learning systems: The example of computational advertising. The Journal of Machine Learning Research, 2013, 14(1): 3207-3260
    [115] Wang Z C, Huang B W, Tu S K, Zhang K, Xu L. Deeptrader: A deep reinforcement learning approach for risk-return balanced portfolio management with market conditions embedding. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence. Virtual: AAAI, 2021. 643−650
    [116] Shi W J, Huang G, Song S J, Wu C. Temporal-spatial causal interpretations for vision-based reinforcement learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(12): 10222-10235 doi: 10.1109/TPAMI.2021.3133717
  • 期刊类型引用(4)

    1. 王龙,宋慧慧,张开华,刘青山. 反馈学习高斯表观网络的视频目标分割. 自动化学报. 2022(03): 834-842 . 本站查看
    2. 乐英,赵志成. 基于背景差分法的多运动目标检测与分割. 中国工程机械学报. 2020(04): 305-309 . 百度学术
    3. 郭雯雯,杨凤梅. 课堂环境双模态情感评价系统设计与效果分析. 教学研究. 2019(03): 27-33 . 百度学术
    4. 周文俊,郑新波,卿粼波,熊文诗,吴晓红. 基于光流的快速人体姿态估计. 计算机系统应用. 2018(12): 109-115 . 百度学术

    其他类型引用(1)

  • 加载中
  • 图(5) / 表(3)
    计量
    • 文章访问数:  5801
    • HTML全文浏览量:  1013
    • PDF下载量:  1110
    • 被引次数: 5
    出版历程
    • 收稿日期:  2022-10-18
    • 录用日期:  2023-02-10
    • 网络出版日期:  2023-02-20
    • 刊出日期:  2023-03-20

    目录

    /

    返回文章
    返回