2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

归一化互信息量最大化导向的自动阈值选择方法

邹耀斌 雷帮军 臧兆祥 王俊英 胡泽海 董方敏

邹耀斌, 雷帮军, 臧兆祥, 王俊英, 胡泽海, 董方敏. 归一化互信息量最大化导向的自动阈值选择方法. 自动化学报, 2019, 45(7): 1373-1385. doi: 10.16383/j.aas.2018.c170284
引用本文: 邹耀斌, 雷帮军, 臧兆祥, 王俊英, 胡泽海, 董方敏. 归一化互信息量最大化导向的自动阈值选择方法. 自动化学报, 2019, 45(7): 1373-1385. doi: 10.16383/j.aas.2018.c170284
ZOU Yao-Bin, LEI Bang-Jun, ZANG Zhao-Xiang, WANG Jun-Ying, HU Ze-Hai, DONG Fang-Min. Automatic Threshold Selection Guided by Maximizing Normalized Mutual Information. ACTA AUTOMATICA SINICA, 2019, 45(7): 1373-1385. doi: 10.16383/j.aas.2018.c170284
Citation: ZOU Yao-Bin, LEI Bang-Jun, ZANG Zhao-Xiang, WANG Jun-Ying, HU Ze-Hai, DONG Fang-Min. Automatic Threshold Selection Guided by Maximizing Normalized Mutual Information. ACTA AUTOMATICA SINICA, 2019, 45(7): 1373-1385. doi: 10.16383/j.aas.2018.c170284

归一化互信息量最大化导向的自动阈值选择方法

doi: 10.16383/j.aas.2018.c170284
基金项目: 

国家自然科学基金 61502274

国家自然科学基金 61272237

湖北省自然科学基金 2015CFB336

国家自然科学基金 U1401252

湖北省自然科学基金 2015CFA025

详细信息
    作者简介:

    雷帮军   三峡大学水电工程智能视觉监测湖北省重点实验室及计算机与信息学院教授.2003年获得荷兰德尔夫特理工大学电子信息博士学位.主要研究方向为计算机视觉和模式识别.E-mail:bangjunlei1973@sohu.com

    臧兆祥   三峡大学水电工程智能视觉监测湖北省重点实验室及计算机与信息学院副教授.2013年获得华中科技大学模式识别与智能系统博士学位.主要研究方向为机器学习和进化计算.E-mail:zxzang@yeah.net

    王俊英  三峡大学水电工程智能视觉监测湖北省重点实验室及计算机与信息学院教授.2010年获得华中科技大学模式识别与智能系统博士学位.主要研究方向为机器学习和模式识别.E-mail:jywang1971@21cn.com

    胡泽海   三峡大学水电工程智能视觉监测湖北省重点实验室研究助理.主要研究方向为数字图像处理.E-mail:huzehaictgu@126.com

    董方敏  三峡大学水电工程智能视觉监测湖北省重点实验室及计算机与信息学院教授.2007年获得华中科技大学计算机辅助设计博士学位.主要研究方向为数字图像处理和智能信息处理.E-mail:fmdong_ctgu@163.com

    通讯作者:

    邹耀斌  三峡大学水电工程智能视觉监测湖北省重点实验室及计算机与信息学院副教授.2011年获得华中科技大学计算机科学与技术博士学位.主要研究方向为数字图像处理和模式识别.本文通信作者.E-mail:zyb@ctgu.edu.cn

Automatic Threshold Selection Guided by Maximizing Normalized Mutual Information

Funds: 

National Natural Science Foundation of China 61502274

National Natural Science Foundation of China 61272237

Natural Science Foundation of Hubei Province 2015CFB336

National Natural Science Foundation of China U1401252

Natural Science Foundation of Hubei Province 2015CFA025

More Information
    Author Bio:

       Professor at the Hubei Key Laboratory of Intelligent Vision Based Monitoring for Hydroelectric Engineering and College of Computer and Information Technology, China Three Gorges University. He received his Ph.D. degree in electronic information processing from Delft University of Technology, Netherlands in 2003. His research interest covers computer vision and pattern recognition

      Associate professor at the Hubei Key Laboratory of Intelligent Vision Based Monitoring for Hydroelectric Engineering and College of Computer and Information Technology, China Three Gorges University. He received his Ph. D. degree in pattern recognition and intelligent system from Huazhong University of Science and Technology in 2013. His research interest covers machine learning and evolutionary computation

      Professor at the Hubei Key Laboratory of Intelligent Vision Based Monitoring for Hydroelectric Engineering and College of Computer and Information Technology, China Three Gorges University. She received her Ph. D. degree in pattern recognition and intelligent system from Huazhong University of Science and Technology in 2010. Her research interest covers machine learning and pattern recognition

      Research assistant at the Hubei Key Laboratory of Intelligent Vision Based Monitoring for Hydroelectric Engineering, China Three Gorges University. His main research interest is digital image processing

     Professor at the Hubei Key Laboratory of Intelligent Vision Based Monitoring for Hydroelectric Engineering and College of Computer and Information Technology, China Three Gorges University. He received his Ph.D. degree in computer aided design from Huazhong University of Science and Technology in 2007. His research interest covers digital image processing and intelligent information processing

    Corresponding author: ZOU Yao-Bin   Associate professor at the Hubei Key Laboratory of Intelligent Vision Based Monitoring for Hydroelectric Engineering and College of Computer and Information Technology, China Three Gorges University. He received his Ph.D. degree in computer science and technology from Huazhong University of Science and Technology in 2011. His research interest covers digital image processing and pattern recognition. Corresponding author of this paper
  • 摘要: 当前景或背景的灰度分布呈现为非正态分布特征时,比如极值、瑞利、贝塔或均匀分布,将所选阈值与最优阈值之差控制在10个灰度级内并非易事.为了在统一框架内处理不同灰度分布情形下的阈值选择问题,提出了一种归一化互信息量最大化导向的自动阈值选择方法.该方法先采用多尺度梯度乘变换规范化输入图像,获得具有单峰长拖尾灰度分布的规范图像;然后对不同阈值对应的二值图像进行轮廓提取,获得不同的轮廓图像;最后计算规范图像和不同轮廓图像之间的归一化互信息量,并以最大值对应的阈值作为最终阈值.在具有不同灰度分布模式的9幅合成图像和59幅真实世界图像上,将提出的方法和1种人工阈值方法及4种自动阈值方法进行了比较.实验结果表明,提出的方法虽然在计算效率方面不优于4个自动方法,但在分割的适应性和精确度方面优势明显:对前述不同灰度分布情形,其所选阈值与最优阈值之差都在9个灰度级内.
  • 2016年是载入人工智能史册的一年. Alphabet(原Google)旗下的DeepMind公司研发的计算机围棋程序AlphaGo成功地打败了近15年来一直被认为是世界顶尖棋手的李世石九段.这距IBM的深蓝(Deep Blue)程序击败国际象棋棋王卡斯帕罗夫正好二十年,也再一次在学术界和民间掀起了人工智能的热潮. 与深蓝不同的是,AlphaGo的成功极大程度上归功于其采用了深度学习的算法.本文从一个更广的角度来介绍深度学习在博弈中的应用.

    深度学习是近年来大放异彩的一种机器学习模式.其主要的方法是通过训练多层的神经网络(Neuralnetworks)以达到更好的学习效果.常见的多层网络结构包括多层感知器(Multilayer perceptron,MLP)、卷积神经网络(Convolutional neural network,CNN)和递归神经网络(Recurrent neural network,RNN)等.多层神经网络的理论在80年代即已被广泛研究[1-4],但一直到最近十年,由于训练算法与计算能力的局限,研究者普遍只能成功地训练两层或者三层的神经网络(卷积神经网络是一个例外).更多层的神经网络反而让学习结果变差[5]. 2006 年,多伦多大学的Hinton 及其合作者提出了深度置信网络(Deep beliefnetworks,DBN). 其使用非监督学习对神经网络的每一层进行分别训练,从而能够成功地训练具有多层网络结构的限制性玻尔兹曼机(RestrictedBoltzmann machine)[6].类似的利用非监督学习来分层训练的方法也适用于其他的深度网络结构[7-8].其后,蒙特利尔大学的研究者深入分析了非监督学习对于深层结构的帮助[9] 以及原始训练方法失败的原因[10],并提出了适用于深层结构的参数初始化方法[10]和激活函数(Activation function)[11].随着训练算法和计算能力瓶颈的突破(尤其是对图形处理(Graphicsprocessing unit,GPU)和高性能计算 (High-performance computing,HPC)的使用),深度学习被广泛应用于人工智能相关的领域,并在多个研究问题上取得了巨大进展.其典型应用场景包括图像处理中的图像分类(Image mbox{classification)[12]、}物体检测(Objectdetection)[13-14]、视频分类(Videoclassification)[15]、场景解析(Senseparsing)[16]和阴影检测(Shadow detection)[17],语音理解中的语音识别(Speechrecognition)[18]、韵律预测(Prosody contour prediction)[19]和韵律预测(Prosody contourprediction)[19]和文本到语音的合成(Text-to-speechsynthesis)[20-21],自然语言处理中的句法分析(Parsing)[22]、机器翻译(Machinetranslation)[23-24]和上下文实体链接(Contextual entitylinking)[25]以及数据挖掘中的情感分析(Sentimentanalysis)[26]和信息检索(Informationretrieval)[27-28] 等.详情可参阅关于深度学习的综述文章[5, 29-30].

    总的来说,在有大量训练样本存在的情况下,深度学习在预测问题(如分类和回归)上往往有很好的表现.为什么相比传统的有监督学习的模式,深度学习如此有效呢?我们认为其原因大致可以归结于三点:端对端学习的思想、 非线性学习的能力以及面对大规模数据的可扩展性.

    传统机器学习的流程往往分作多个独立的模块.这些模块之间在训练过程中并不传递学习误差(Error propagation),因此前一个模块也不会根据之后模块的训练结果进行调整.例如在一个典型的自然语言处理的问题中,传统的方法会依次采取分词(Tokenization)、词性标注(POStagging)、句法分析(Parsing)、语义分析(Semanticanalysis)等独立的步骤. 在这样的流程中,每一个步骤是一个独立的学习任务,都需要大量标注好的训练样本.为不同的学习任务标注大量的训练样本代价高昂,而每一个步骤作出的错误预测(不管由什么原因产生)也都会影响之后的任务.即使在一个单独的学习任务中(如句法分析),特征提取(Featureextraction)也往往是一个独立于训练的预处理步骤. 而在深度学习的流程中,可训练的层次化表示(Trainable hierarchicalrepresentation)取代了预定义的特征表示,而每一层的表示都会在训练中根据之后各层传递的误差信息来进行调整,从而有利于对目标函数的优化[31]. 另一方面,在深度学习中每一层的训练都不依赖于额外的学习目标和训练样本 (当然,深度学习也可以利用额外的标记给中间层的训练提供副目标函数).这样不仅能让有限的资源优先用于为最终的学习目标标记训练样本,也能灵活地利用现成的有标记的数据集.

    图 1展示了一个在视频游戏中使用深度学习的范例.我们可以看到一个多层的卷积神经网络被用来端对端地学习从输入(游戏屏幕)到输出(游戏控制信号)的映射.

    图 1  卷积神经网络学习从游戏屏幕到游戏策略的映射
    Fig. 1  A convolutional neural network learns a mapping from game screens to game policy

    深度学习通过堆叠多层的神经网络来构建从原始的数据输入到最终的预测目标的映射函数.传统的机器学习模型擅于寻找数据到输出目标的线性变换,但在现实中,从数据输入到目标输出的映射往往是复杂的、非线性的.在深层神经网络中,每一层都是一个非线性的从输入到输出的映射.这些多层的非线性变换形成了数据的层次化表示,随着层数的增加,表示也更加抽象、更加普适(Invariant). 例如,对于图像数据,深度学习结构首先提取出关于物体边界的表示,之后的网络层再从边界的表示中提取出关于物体部件的特征,而物体部件的特征进而作为下一层神经网络的输入从而得到关于物体的特征向量[32];对于文本数据,深度学习结构首先提取出词的特征表示(Wordrepresentation),之后的网络层再从词的特征通过非线性变换提取出语句的特征,而语句的特征作为下一层的神经网络输入从而得到关于文章的特征向量.虽然从理论上讲,超过两层的神经网络结构即可表达任意函数,但更深层的网络结构对于特定的函数集合具有更高效的表达能力,从而能够通过更少的参数(如少数的网络结点)来表达复杂的函数[33-36].这种高效的表达能力对于复杂的人工智能任务是必须的.深层网络的表达优势对于神经网络的学习具有明显的帮助:底层和高层的变量可以共享统计特征,从而提高学习效率. 因为两层的神经网络中并没有这种层次化的特征表示,我们一般不认为两层的网络是深度学习结构. 同样,直接建立在原始输入空间的非线性模型,例如决策树和支持向量机(非线性Kernel),也不被认为 是 深度学习模型[36].

    学习复杂的、 非线性的函数当然需要更多的训练样本,训练样本太少会导致严重的过拟合(Overfitting)问题.这不仅让如何获取大量的标注数据成为关键,也对机器学习面对大量训练样本的可扩展性提出了考验.虽然传统的机器学习算法(如SVM (Support vector machine)和Logisticregression)也能通过核方法(Kernel method)来学习非线性转换,但这样的计算复杂度很高: 至少是O $(N^{2})$ , $N$ 为训练数据样本数.当数据量太大时,这样的算法显然困难重重.深度学习的训练方法多基于随机梯度下降(Stochastic gradient descent),不仅不需计算训练样本的两两关系,甚至往往不需遍历所有的训练样本,从而可以灵活地利用更大的数据集. 同时,反向传播算法(Backpropagation)能快速地计算整个网络的梯度,并让训练误差有效地传播到底层的特征空间[37].随着训练样本的增加,传统监督学习算法的性能往往出现收益递减(Diminishing return)的现象.相反,深度学习算法的效果则可以随着可训练数据集的增加取得明显的提升.这种优势源于深层网络结构灵活的表达能力,让深度学习可以用简洁的结构表达复杂的函数集合[5, 38].

    以上我们简单介绍了深度学习的基本思想、优点和应用,接下来让我们看看它是如何被应用在游戏中的.

    博弈,或称"玩游戏" (Game playing),是人工智能的经典问题.能够客观判定胜负的游戏不仅为人工智能算法提供了完美的测试平台,也让计算机玩家和人类玩家得以对战比较. 根据不同的分类方法,游戏可以被分为单人游戏和双人(或多人)游戏,棋盘游戏和视频游戏,协作游戏和对战游戏等. 双人或更多人的游戏常被称为博弈,而博弈又可被分为完全信息博弈(Perfect information games,如围棋与象棋)和非完全信息博弈(如扑克和军棋).早期的人工智能算法往往依赖于搜索算法,这在简单的、搜索空间有限的游戏(如Tic-Tac-Toe)中非常有效. 随着搜索难度的增加,更复杂的游戏往往采用搜索与机器学习相结合的算法,尤其是强化学习(Reinforcement learning)的算法.

    强化学习本身并非深度学习. 它是机器学习的一个重要分支,其着重解决顺序性决策问题[39-40].很多游戏中目前最先进的算法都是基于强化学习.比如在AlphaGo之前的效果最好的围棋算法(如CrazyStone与Zen)即是将强化学习与蒙特卡洛树搜索(Monte-Carlotree search,MCTS)相结合. 相比于非监督学习和监督学习,强化学习关注两大特有的问题: 探索与开发的权衡(Exploration vs.exploitation) 和有时序的信用分配(Temporal credit assignment).一个强化学习算法需要回答两个基本问题: 1)如何评估一个策略(Policy);2)如何找到一个问题的最优策略. 深度学习在游戏中的应用,往往是通过协助强化学习来更好地解决这两个问题 (例如图 1所示).

    强化学习传统的研究重点是学习表格化表示(Tabularrepresentation)或线性函数近似(Linear functionapproximation)[39]. 对于现实中的大规模和复杂的顺序决策过程,简单的表格化表示和线性的近似是不够的.深度学习能为强化学习提供端对端的、 非线性的函数近似,从而使得强化学习能够解决更现实更复杂的问题(比如如何表达围棋中棋盘的状态).另一方面,为了解决游戏中常见的部分可观察的马尔科夫决策问题(Partiallyobservable Markov decision problems,POMDP),强化学习的算法需要有效地处理动作和观测数据的序列(比如有效地将历史动作和观测数据概括为一个状态表示),以找到最优策略.在音频、 视频和文本等领域中,深度学习已经被证明能够成功地学习序列的表示,因此其也被用来学习 POMDP中的状态表示[41-43]. 以深度学习优化的强化学习算法,被通称为深度强化学习. 深度强化学习的综述可参见文献[30].

    最近几年,深度强化学习被越来越多地应用在游戏中,包括多种单人游戏和多人游戏.前文已经提到深度学习的优点在于能从大量的训练数据中学习出非线性的表示,从而达到更好的预测效果. 当深度学习被应用在一个新的领域的时候,我们需要关注三个问题:预测的目标是什么?训练数据从哪里来?学习的结果表示什么?

    接下来我们以一类文献中常见的游戏为例来梳理深度强化学习在游戏中的发展.我们发现,当深度学习被引入到游戏的时候,其预测目标往往是某个游戏状态下每个可能的动作所对应的值(Value)或者概率(即估值和策略),其训练数据往往来源于计算机玩游戏的过程(准确地说是成序列的状态-动作-奖励记录),其学习的结果往往是对游戏的状态和策略的非线性表示.

    Arcade 学习环境(Arcade learning environment,ALE)是一个人工智能研究者们公用的评测平台,其作用类似于图像分类领域的ImageNet挑战[44].ALE提供了一个雅达利 2600 (ATARI 2600)模拟器和大约50个游戏(大多数是单人游戏)[44]. 这些游戏都建立在相同的宽 160像素、高210 像素的屏幕上,每个像素有 128 种颜色.每个游戏有不同的动作空间,最多包括 18 个可能的动作. 要玩好这些游戏,一个成功的算法需要同时解决游戏状态表示和策略选择两个挑战,这几乎就是为深度强化学习度身定做的:深度强化学习算法能从高维的、同时也是部分可观察的屏幕中学习当前游戏状态的表示,同时也能从稀疏的、高度延迟的奖励信息(Reward)中学习最优策略.

    经典的强化学习算法假定其值函数(Value function)可以用一张表来表示.表中的每一个条目对应一个状态或者一个状态+动作的配对. 例如 $Q$ -learning算法[45]就一张表来记录每一个状态+动作配对的值.这些值在学习过程中使用如下公式更新:

    $ Q({s_t},{a_t}) = Q({s_t},{a_t}) + \alpha ({r_t} + \gamma {\max _b}Q({s_{t + 1}},b) - Q({s_t},{a_t})) $

    其中 $s_{t},a_{t},r_{t}$ 是在第 $t$ 时刻的游戏状态、动作和奖励, $s_{t+1}$ 是在第 $t + 1$ 时刻的状态.这样的表格表示适用于游戏状态和动作都不太多的情况.当可能的游戏状态和动作数量庞大的时候,强化学习面临的关键问题并不在于存储这张大表所需的空间,而在于正确填写表中的目标值所需的时间和数据量.因此这里真正的挑战在于泛化(Generalization):在只经历了有限的游戏状态的情况下,如何得出对未经历的状态空间中可能的动作所对应的值.强化学习中常用的泛化方法是函数近似.函数近似从(未知的)目标函数中获得一些输入到输出的映射,并试图将它们推广到整个函数定义域,以构造对整个目标函数的近似. 例如,在线性函数近似中,一个动作的值函数被表示为:

    $ Q(s,a; \theta)=\theta^{\rm T}\varphi(s,a) $

    其中 $\theta$ 为可被学习的参数, $\varphi(\cdot)$ 是定义在状态+动作的配对上的特征函数.线性的函数近似方法从最近的游戏画面帧中提取人工设计好的特征,再以这些特征的线性组合来表达和学习值函数. 阿尔伯塔大学的 Bellemare等 首先在ALE上使用了线性函数近似的 SARSA算法和以下四种新的通用的人工设计的特征集: 1)首先把屏幕分成交集的块,对每个块用一个向量表示每种颜色是否出现,并将这些向量的集合作为当前游戏画面的基本(BASIC)特征集;2)在基本特征集的基础上添加基本特征的配对组合,这些组合构成了BASS特征集; 3)首先提取屏幕上的物体,并通过聚类对屏幕上的物体进行分类,同时用多帧间信息来推断这些物体的位置和速度.屏幕上所有物体的类别、位置和速度构成了当前游戏画面的 DISCO 特征集;4)对游戏画面使用局部敏感哈希(Locality-sensitive Hashing),并将所得的低维表示作为LSH特征集[44].他们在后续工作中提出了Contingency awareness 的方法,在原始特征集的基础上又加入了额外特征,用于表示屏幕中哪些元素是直接受玩家输入的影响[46]. Bellemare等随后又提出了通过使用 tug-of-war sketch 来进一步扩展特征集的方法[47]. 但总的来说,基于线性值函数近似的强化学习算法要远远弱于人类玩家. 此外,人工设计特征函数并不是一件容易的事情.

    显然,深度神经网络能使用非线性函数以高效地表示 $Q(s,a; \theta)$ ,从而大大提高估值函数的表达能力. 可即便如此,在2013年之前,神经网络在强化学习上的成功应用却相当有限,其中一个例外是IBM WatsonResearchCenter的Tesauro成功地利用强化学习训练了神经网络来解决双陆棋(Backgammon)[48].我们在此简单地分析深度学习在强化学习中的应用的障碍,以及这些障碍是如何在近十年里被一一解决的.

    1)训练稳定性问题.函数近似的思想无外乎是给没有出现过但相关联的状态+行动配对分配相似的值,从而达到泛化的效果. 然而,与监督学习不同的是,强化学习中并没有已知的可用于训练的目标值,它们需要通过算法的迭代更新来得到.可问题是当某一个状态+动作配对被更新的时候,这个更新所引导的参数权重的改变可能会影响到其他状态+动作配对的值.这可能会导致这些状态+动作配对的值之前的迭代结果前功尽弃.这个潜在问题通常导致学习时间变得很长,甚至导致学习的失败.解决这一稳定性问题需要两个非常重要的思想:经验回放(Experiencereplay)以及目标值分离(Target $Q$ -separation). 经验回放的思想是,当更新一个新的数据点时,之前经历过的其他数据点也要被明确地考虑到[49].经验回放将所有先前经历的状态与动作 $(s,a,r,s^\prime)$ 存储到一个序列,不妨称之为 $D$ . 这个序列在每次更新 $Q$ 函数时都会被重新使用去最小化目标函数:

    $ L(\theta ) = {{\text{E}}_{(s,a,r,{s^\prime }){\text{U}}(D)}}[{(r + \gamma {\max _b}Q({s^\prime },b;\theta ) - Q(s,a;\theta ))^2}] $

    其中 ${\rm U}(D)$ 表示在经验序列 $D$ 上的一个均匀的随机分布.基于均匀分布的经验回放打破了数据的相关性,使学习回到了独立同分布(i.i.d)的状态.经验回放也使得强化学习算法能够从所有过去的策略中学习 $(s,a,r,s^\prime)$ ,这使学习变得更稳定. 值得指出的是,回放过多的经验会减缓学习进度.如何基于学习进度确定经验回放的多少仍然是一个悬而未决的问题.

    经验回放机制可以让学习更稳定,但由于目标值 $(r+\gamma \max_bQ(s_{t+1},b; \theta))$ 和当前估值 $Q(s,a; \theta)$ 之间的相关性,训练中的振荡仍可能存在.一个有效的解决方案是另用一个单独的神经网络来生成目标值. 比如深度 $Q$ -网络(Deep $Q$ -network,DQN)使用:

    $ L(\theta ) = {{\text{E}}_{(s,a,r,{s^\prime }){\text{U}}(D)}}[{(r + \gamma {\max _b}Q({s^\prime },b;{\theta ^ - }) - Q(s,a;\theta ))^2}] $

    其中 $\theta^-$ 是用于计算目标值(Target)的参数,它只会周期性地与当前训练的值函数的参数 $\theta $ 同步[50].深度 $Q$ -网络是经验回放和目标值分离两个思想的结合,它通过 $Q$ -learning 来训练卷积神经网络(CNNs),并在雅达利 2600游戏上取得了巨大突破.深度 $Q$ -网络记录使用均匀分布来抽取训练样本,DeepMind的Schaul等优化了经验回放的采样方法来提高深度 $Q$ -网络在雅达利游戏上的成绩.他们的想法是更多的随机选取拥有较大时间差分错误(Temporal differenceerror)的状态-动作配对[51].

    另一种处理训练稳定性问题的方向是将强化学习转化为监督学习.密歇根大学的Guo等使用慢速的蒙特卡洛树搜索生成少量的数据来训练快速的卷积神经网络,卷积神经网络则通过数据集聚[52] 来模仿蒙特卡洛树搜索的行为[53]. 伯克利大学的 Schulman等则使用信赖域策略优化(Trust region policyoptimization)来使深度网络直接学出策略[54].

    2)估计偏差的问题. 在标准 DQN 中,求最大值的运算符使用相同的值来选择和评估动作,这使得它更容易选择被高估的估值,导致过于乐观的估计,而这种高估可能会使训练变得发散. Double DQN 的方法解耦了选择和评估,从而降低了估计值偏差对于 DQN 的影响[55]

    $ \begin{gathered} L(\theta ) = {{\text{E}}_{(s,a,r,{s^\prime }){\text{U}}(D)}} \hfill \\ [{(r + \gamma Q({s^\prime },\arg {\max _b}Q({s^\prime },b;\theta );{\theta ^ - }) - Q(s,a;\theta ))^2}] \hfill \\ \end{gathered} $

    与 DQN 相比,Double DQN中训练网络 $\theta$ 的权重可用于以"贪婪法"选择动作, $\theta^-$ 仍用于计算目标值[55]. Double DQN是目前雅达利游戏中最先进的算法.

    研究者们的另一个发现是最优的值函数会存在不一致性,其对每个状态的任意次优动作的估值都偏大.这是因为贝尔曼公式中 $Q^*(s,a)$ 描述的是一个不一致性策略:当将来返回到当前游戏状态 $s$ 时,这一策略会选择 $\pi^*(s)$ ,而不是当前所选的动作 $a$ .虽然保持全局一致性并不实际,Bellemare等提出的贝尔曼公式的一致性算子(Consistent Bellman operator),为不一致性问题提供了一阶的解决办法.这个一致性算子总体上对次优动作进行贬值,但保留所有最优动作的值.这当然会导致最优和次优动作的估值之间的差距增大. 在深度强化学习中,增大这个差距可以减轻 $Q$ 值估计的统计偏差对于学习的影响. ConsistentBellman operator 的使用成功的提高了 DQN在雅达利游戏上的得分[56].

    DeepMind 的 Wang 等提出了新的"决斗"神经网络架构(Dueling network).此架构分离了游戏状态的值函数和与状态相关的动作的优势函数,这使得各个动作的估值不再独立.不同动作共享更泛化的状态值函数对于减少对不同的动作的估计偏差很有用[57].

    3)部分可观察性问题.有的深度强化学习算法利用递归神经网络来处理来处理雅达利游戏中的部分可观察性(Partiallyobservability),比如Deep recurrent $Q$ network (DRQN). DRQN的基础仍然是 DQN 框架,其区别是在 CNN 上增加了一个长短期记忆(Longshort-term memory,LSTM)模块. 研究发现在雅达利游戏中,DRQN能更好地处理部分可观察性[41].

    4)如何加快训练速度.基于DQN的方法在用GPU的情况下需要用8天的时间才能学习如何玩一种雅达利游戏 .DeepMind的 Mnih 等提出了异步优势演员-评论家方法(Asynchronousadvantage actor-critic,A3C)以加快训练[58]. 该法即便使用 16个 CPU,学习一种游戏也只需要4 天 .

    5)多任务学习的问题. DQN专注于单一游戏的学习,其训练所得的网络只能用于一个游戏.最近的一些研究考虑了如何将多个游戏中分别训练出的深度神经网络压缩为一个网络,以使用同一网络玩多个游戏[59-60].

    虽然并非耳熟能详的游戏,雅达利游戏为深度学习在游戏中的发展提供了极佳的土壤和评测平台.其中的很多思想和技术随即被应用在了其他的博弈问题中.

    围棋是现存最复杂的完全信息博弈之一.相比其他的棋盘游戏(如国际象棋和西洋跳棋),围棋的搜索空间极大,局面的描述和评估都极难. 随着卷积神经网络在 雅达利游戏上取得了巨大的成功,人们期望同样的方法可以用来解决计算机围棋.然而事实证明,直接依样画葫芦来对计算机围棋的策略或值函数作近似是很难的. 究其原因,还是因为围棋的策略和形势判断太过复杂.由于每个棋盘状态真正的值是未知的,如果没有足够好的初始策略作为强化学习的基础,利用不准确的动作和奖励信息训练出来的神经网络未必能做可靠的预测.为了解决这个难题,研究者们想到了用人类的棋谱做深度神经网络的训练集,因为在人类棋谱中每步棋的选择和每盘棋的胜负都是已知的.研究者们期待从人类棋谱中学习的策略更适合作为强化学习的初始策略.

    爱丁堡大学的Clark 等用人类棋手的历史棋谱来训练卷积神经网络,从而可以预测人类棋手的策略(即当前局面的下一手).这样的神经网络也被称为策略网络. 它们在两个数据集上分别取得了41.1%和 44.4%的预测准确率.这些策略网络利用了专为围棋设计的特征集,例如对称信息被硬编码为深度神经网络的输入,棋盘上不合理的位置也被屏蔽了. 即便预测的准确率小于50%,训练好的卷积神经网络也能打败知名的围棋程序 GnuGo(但输给了更先进的围棋程序 Fuego)[61].

    多伦多大学的 Maddison 等和DeepMind的研究者们用一个网络对战平台(KGS)的历史棋谱训练了12层深的卷积神经网络,其预测人类棋手的策略能达到 55%的准确率.训练好的卷积神网经络对战 GnuGo 能达到 97%的赢率,并能匹敌最先进的每步模拟 200 万次的蒙特卡洛树搜索算法[62].相似的办法也被Tian等用在Facebook研发的计算机围棋程序黑暗森林(DarkForest)中[63]. 值得一提的是,从人类专家棋谱中训练出来的策略网络存在偏差.这是因为训练的目标(预测下一手)和实战的目标(赢下比赛)是不一致的.为解决这个问题,AlphaGo将用棋谱训练的策略网络再通过自我对局(Self-play)进行调整,其思想和Atari游戏中用自战的序列来训练策略网络并无二致[64].

    从人类棋谱中训练的策略网络让基本策略变得足够好,这使得强化学习算法在自我对局中观察到的状态-动作-奖励信息变得更加接近最优策略的真实情况(Ground-truth).AlphaGo于是用自我对局的棋盘状态和胜负来训练一个价值网络,以预测任意棋盘状态的值. 这个价值网络进一步提高了AlphaGo的棋力.为了让训练数据尽可能独立,AlphaGo从每盘自战中只选取一个局面来做训练[64].这个思想和Atari游戏中让经验回放的选取尽可能均匀随机是相似的.

    在另一方面,蒙特卡洛树搜索仍然是目前最先进的处理大型和复杂的顺序决策的算法,包括计算机围棋. 随着随机模拟的次数变多,搜索树变大,对值的估计也变得更准确. 然而,它的计算开销对于实际的围棋比赛来说太过于庞大. 因此,研究者们也试图利用深度学习(或者更简单的线性学习)来帮助蒙特卡洛树搜索,以提高对值预测的准确率或者减少搜索的计算开销. AlphaGo推出了新的蒙特卡洛树搜索算法.该算法结合蒙特卡罗模拟以及价值和策略网络来减少计算开销.价值网络被用来评估当前棋盘的状态(即预测一个给定局面的值),从而有效地降低了搜索规划的深度.策略网络则被用来选择下一步(即预测一个给定局面的下一步棋的概率分布),从而有效地降低了搜索的宽度.这些网络的训练是人类专家动作的监督学习和自我游戏的强化学习的精密结合.AlphaGo 藉此力挫欧洲围棋冠军和世界顶尖棋手李世石[64].

    扑克游戏的挑战来源于信息不完全,即玩家对历史事件只能进行部分观察,而看不到对手的信息. 阿尔伯塔大学的 Bowling等人为德州扑克游戏提出了一个近似纳什均衡的解决方案.此方案的基本思想是用两个 Regret最小化算法之间反复自我对局[65]. 最近,Yakovenko等和哥伦比亚大学的研究者们用类似的方法训练了针对扑克的卷积神经网络,并在三种常见的扑克游戏中能和人类专家抗衡[66]. DeepMind的Heinrich等和 Silver等提出了更适用于非完全信息博弈的深度强化学习算法,他们称之为"神经虚拟自我对局" (Neural fictitious self-play,NFSP). NFSP的主要思想是去近似博弈论中经典的"虚拟对局" (Fictitiousplay)模型,其不借助于先验知识,并能在二人零和游戏(Zero-sumgames)或者多人势博弈(Potentialgames)中通过自我对局中收敛到纳什平衡[67].

    Atari、围棋和扑克只是计算机游戏中的冰山一角. 有趣的是,深度学习在其他的经典游戏中并没有被广泛应用.这也许是因为计算机在多数经典游戏(比如象棋和跳棋)中早已能打败人类高手.这从某种程度上让研究者们失去了进一步改善算法的兴趣. 即便如此,深度学习或者更广泛的监督学习的思想还是散见于其他游戏中.除了前文提到的双陆棋,国际跳棋程序Chinook首先从人类专家的棋谱中提取和构建一个关于开局策略的数据库,再通过alpha-beta搜索算法和以及对叶节点的策略评估函数来选取最优动作[68].最近的研究热点逐渐从棋牌游戏转向视频游戏,比如微软把游戏"我的世界(Minecraft)"作为测试人工智能的研究平台,而DeepMind则声称他们的下一个挑战是星际争霸(StarCraft).相比棋盘游戏,这些即时战略游戏的状态更复杂,信息更不完全,动作的选择空间也更大.

    博弈一直是人工智能的重要分支.深度学习在其他领域的成功带给了游戏人工智能前所未有的启发.比如计算机围棋就经历了最早的基于规则的算法、基于启发式的局面评估的算法、 基于蒙特卡洛树搜索的算法、基于强化学习的算法,最终由深度强化学习带来质的飞跃. 在不久的将来,我们会看到深度学习的算法和思想被应用于越来越多的游戏里.未来的研究方向应该会从经典游戏逐渐偏向更复杂,信息更不完全的多人游戏,尤其是视频游戏.游戏中的深度学习还有不少亟待解决的问题,比如如何把已习得的知识应用到新问题中、如何更有效地利用专家知识、如何在自我对局中学到新的知识、如何根据对手改变游戏策略等.我们也期待看到成功的游戏算法被应用在各行各业(比如医疗和教育),真正改善普通人的生活.


  • 本文责任编委 胡清华
  • 图  1  MNMI方法所涉及的关键概念和步骤的图示((a)原始图像$X$的灰度直方图; (b)原始图像$X$; (c)使用$t$阈值化原始图像$X$所得的二值图像${{Y}_{t}}$; (d)对原始图像$X$进行多尺度梯度乘变换后所得图像${{M}_{X}}$的灰度直方图; (e)图像${{M}_{X}}$; (f)从二值图像${{Y}_{t}}$中提取轮廓后所得轮廓图像${{C}_{{{Y}_{t}}}}$.注意, 为了能更清楚地显示灰度区间[0, 255]内灰度值出现的频率, (d)中灰度直方图在频率为80处进行了截断.)

    Fig.  1  Graphic illustration of crucial concepts and steps in MNMI method ((a) Gray level histogram of original image $X$; (b) original image $X$; (c) binary image ${{Y}_{t}}$ obtained by thresholding original image $X$ with a gray level $t$; (d) gray level histogram of image ${{M}_{X}}$ produced by applying a multiscale gradient multiplication transformation to original image $X$; (e) image ${{M}_{X}}$; (f) contour image ${{C}_{{{Y}_{t}}}}$ extracted from binary image ${{Y}_{t}}$. The gray level histogram in (d) is truncated at the frequency 80 for more clearly showing the frequency of gray level in the range [0, 255].)

    图  2  灰度直方图呈现出双峰特征的4幅合成图像.每幅子图的左边显示了合成图像, 右边显示了对应的灰度直方图, 黑色曲线显示了提出的MNMI方法计算阈值的目标函数曲线, 虚线及旁边的数字标示了MNMI方法计算出的阈值(下同) ((a)正态分布情形; (b)极值分布情形; (c)瑞利分布情形; (d)贝塔分布情形)

    Fig.  2  4 synthetic images with bimodal gray level histogram. In each sub-figure, a synthetic image is shown on the left; on the right, the gray level histogram is shown, the objective function of MNMI method is illustrated with a black curve, and the threshold obtained by MNMI method is indicated with a dashed line and a number (the same below) ((a) Normal distribution, (b) Extreme value distribution, (c) Rayleigh distribution, (d) Beta distribution)

    图  3  灰度直方图呈现出单峰特征的3幅合成图像((a)正态分布情形; (b)极值分布情形; (c)瑞利分布情形)

    Fig.  3  3 synthetic images with unimodal gray level histogram ((a) Normal distribution, (b) extreme value distribution, (c) Rayleigh distribution)

    图  4  灰度直方图呈现出无峰特征的合成图像

    Fig.  4  A synthetic image with a uniform distribution of gray level

    图  5  灰度直方图呈现出多峰特征的合成图像 (灰度直方图的灰度区间[0, 50]由瑞利分布和均匀分布组合而成, 区间[51, 100]为均匀分布,区间[101, 150]由极值分布和均匀分布组合而成, 区间[151, 200]由贝塔分布和正态分布组合而成,区间[201, 255]为正态分布)

    Fig.  5  A synthetic image with multimodal gray level histogram (The gray level histogram in the range [0, 50] is combined by a Rayleigh distribution and a uniform distribution, [51, 100] by a uniform distribution, [101, 150] by an extreme value distribution and a uniform distribution, [151, 200] by a beta distribution and a normal distribution, and [201, 255] by a normal distribution.)

    图  6  6个阈值方法在59幅真实世界图像上分割精度的量化比较(在每幅子图中, 各条水平虚线标示了对应情形下ME值的平均值)

    Fig.  6  Quantification comparisons of segmentation accuracy for 6 thresholding methods on 59 real-world images (In each sub-figure, each horizontal dashed lines indicate the corresponding average ME, respectively)

    图  7  对59幅真实世界图像, MNMI, GET, ITT, TRT, CKMI方法和IT方法获得的阈值之差(在每幅子图中, 每个黑点旁的数字标示了相应的阈值差)

    Fig.  7  The differences between MNMI, GET, ITT, TRT, CKMI and IT methods in segmentation thresholds for 59 real-world images (In each sub-figure, the number beside each black point labels the specific difference of segmentation threshold)

    表  1  6个阈值分割方法在灰度直方图呈现出双峰特征的4幅合成图像上的阈值$ t$和ME值

    Table  1  Threshold values $t$ and ME values of 6 thresholding methods on 4 synthetic images with bimodal gray level histogram

    阈值方法 正态分布$t$, ME (%) 极值分布$t$, ME (%) 瑞利分布$t$, ME (%) 贝塔分布$t$, ME (%)
    IT 155, 0.18 162, 0.17 201, 1.23 249, 0.20
    GET 186, 2.25 144, 16.99 175, 4.17 175, 27.50
    ITT 149, 0.33 133, 44.34 142, 16.94 128, 39.16
    TRT 150, 0.28 152, 4.33 164, 6.94 174, 27.81
    CKMI 139, 1.42 135, 39.36 133, 22.80 124, 40.05
    MNMI 155, 0.18 162, 0.17 200, 1.26 249, 0.20
    下载: 导出CSV

    表  2  6个阈值分割方法在灰度直方图呈现出单峰特征的3幅合成图像上的阈值$t$和ME值

    Table  2  Threshold values $t$ and ME values of 6 thresholding methods on 3 synthetic images with unimodal gray level histogram

    阈值方法 正态分布$t$, ME (%) 极值分布$t$, ME (%) 瑞利分布$t$, ME (%)
    IT 168, 0.03 142, 0.04 120, 0.05
    GET 179, 0.14 134, 14.98 93, 14.79
    ITT 102, 44.29 122, 63.90 80, 38.00
    TRT 146, 0.59 134, 14.98 103, 5.40
    CKMI 100, 48.62 126, 48.67 75, 49.70
    MNMI 168, 0.03 142, 0.04 120, 0.05
    下载: 导出CSV

    表  3  6个阈值分割方法在灰度直方图分别呈现出无峰特征和多峰特征的合成图像上的阈值$t$和ME值

    Table  3  Threshold values $t$ and ME values of 6 thresholding methods on synthetic images with uniform gray level histogram and multimodal one

    阈值方法 均匀分布(无峰)$t$, ME (%) 混合分布(多峰)$t$, ME (%)
    IT 230, 0.21 204, 0.25
    GET 180, 19.71 180, 17.75
    ITT 126, 40.61 110, 55.60
    TRT 174, 22.24 154, 27.89
    CKMI 128, 39.82 108, 55.90
    MNMI 230, 0.21 204, 0.25
    下载: 导出CSV

    表  4  5个自动阈值分割方法的计算效率比较

    Table  4  Quantitative comparisons of 5 automatic thresholding methods in computational efficiency

    阈值方法 合成图像上耗时(秒) 真实世界图像上耗时(秒)
    均值 标准偏差 均值 标准偏差
    ITT 0.007 0.002 0.008 0.005
    GET 0.039 0.031 0.045 0.028
    CKMI 0.081 0.008 0.127 0.073
    TRT 0.116 0.061 0.109 0.093
    MNMI 0.215 0.068 0.327 0.205
    下载: 导出CSV

    表  5  不同步长下MNMI方法的计算效率和误分类率

    Table  5  Computational efficiency and ME of MNMI method with different steps

    步长$\rho $ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
    合成图像
    平均耗时(秒) 0.215 0.138 0.113 0.103 0.096 0.093 0.090 0.088 0.088 0.087 0.087 0.086 0.088 0.087 0.088
    平均ME (%) 0.267 0.267 0.267 0.267 0.267 0.267 0.267 0.319 0.319 0.267 0.267 10.653 0.267 0.267 0.267
    真实世界图像
    平均耗时(秒) 0.327 0.190 0.147 0.125 0.115 0.108 0.105 0.102 0.104 0.104 0.101 0.101 0.103 0.106 0.108
    平均ME (%) 0.371 0.371 0.373 0.371 0.373 0.377 1.038 2.705 0.372 2.001 1.994 3.235 2.113 3.277 3.776
    下载: 导出CSV
  • [1] Sezgin M, Sankur B. Survey over image thresholding techniques and quantitative performance evaluation. Journal of Electronic Imaging, 2004, 13(1):146-165 http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ028531304/
    [2] 范九伦, 任静.基于平方距离的对称共生矩阵阈值法.电子学报, 2011, 39(10):2277-2281 http://d.old.wanfangdata.com.cn/Periodical/dianzixb201110011

    Fan Jiu-Lun, Ren Jing. Symmetric co-occurrence matrix thresholding method based on square distance. Acta Electronica Sinica, 2011, 39(10):2277-2281 http://d.old.wanfangdata.com.cn/Periodical/dianzixb201110011
    [3] 龙建武, 申铉京, 臧慧, 陈海鹏.高斯尺度空间下估计背景的自适应阈值分割算法.自动化学报, 2014, 40(8):1773-1782 http://www.aas.net.cn/CN/abstract/abstract18444.shtml

    Long Jian-Wu, Shen Xuan-Jing, Zang Hui, Chen Hai-Peng. An adaptive thresholding algorithm by background estimation in Gaussian scale space. Acta Automatica Sinica, 2014, 40(8):1773-1782 http://www.aas.net.cn/CN/abstract/abstract18444.shtml
    [4] 吴一全, 孟天亮, 吴诗婳.图像阈值分割方法研究进展20年(1994-2014).数据采集与处理, 2015, 30(1):1-23 http://d.old.wanfangdata.com.cn/Periodical/sjcjycl201501001

    Wu Yi-Quan, Meng Tian-Liang, Wu Shi-Hua. Research progress of image thresholding methods in recent 20 years (1994-2014). Journal of Data Acquisition & Processing, 2015, 30(1):1-23 http://d.old.wanfangdata.com.cn/Periodical/sjcjycl201501001
    [5] 陈海鹏, 申铉京, 龙建武.采用高斯拟合的全局阈值算法阈值优化框架.计算机研究与发展, 2016, 53(4):892-903 http://d.old.wanfangdata.com.cn/Periodical/jsjyjyfz201604015

    Chen Hai-Peng, Shen Xuan-Jing, Long Jian-Wu. Threshold optimization framework of global thresholding algorithms using Gaussian fitting. Journal of Computer Research and Development, 2016, 53(4):892-903 http://d.old.wanfangdata.com.cn/Periodical/jsjyjyfz201604015
    [6] 陶文兵, 金海.一种新的基于图谱理论的图像阈值分割方法.计算机学报, 2007, 30(1):110-119 doi: 10.3321/j.issn:0254-4164.2007.01.013

    Tao Wen-Bing, Jin Hai. A new image thresholding method based on graph spectral theory. Chinese Journal of Computers, 2007, 30(1):110-119 doi: 10.3321/j.issn:0254-4164.2007.01.013
    [7] Zou Y B, Liu H, Zhang Q. Image bilevel thresolding based on stable transition region set. Digital Signal Processing, 2013, 23(1):126-141 doi: 10.1016/j.dsp.2012.08.004
    [8] Otsu N. A threshold selection method from gray-level histograms. IEEE Transactions on Systems, Man, and Cybernetics, 1979, 9(1):62-66 doi: 10.1109/TSMC.1979.4310076
    [9] Kittler J, Illingworth J. Minimum error thresholding. Pattern Recognition, 1991, 19(1):41-47 http://d.old.wanfangdata.com.cn/Periodical/hwyjggc201403055
    [10] Kapur J N, Sahoo P K, Wong A K C. A new method for gray-level picture thresholding using the entropy of the histogram. Computer Vision, Graphics, and Image Processing, 1985, 29(3):273-285 doi: 10.1016/0734-189X(85)90125-2
    [11] Li C H, Lee C K. Minimum cross entropy thresholding. Pattern Recognition, 1993, 26(4):617-625 doi: 10.1016/0031-3203(93)90115-D
    [12] Pal N R, Pal S K. Entropic thresholding. Signal Processing, 1989, 16(2):97-108 doi: 10.1016/0165-1684(89)90090-X
    [13] de Albuquerque M P, Esquef I A, Gesualdi Mello A R, de Albuquerqueb M P. Image thresholding using Tsallis entropy. Pattern Recognition Letters, 2004, 25(9):1059-1065 doi: 10.1016/j.patrec.2004.03.003
    [14] Sahoo P, Wilkins C, Yeager J. Threshold selection using Renyi's entropy. Pattern Recognition, 1997, 30(1):71-84 http://d.old.wanfangdata.com.cn/Periodical/xdkjyc201801015
    [15] Nie F Y, Zhang P F, Li J Q, Ding D H. A novel generalized entropy and its application in image thresholding. Signal Processing, 2017, 134:23-34 doi: 10.1016/j.sigpro.2016.11.004
    [16] 许向阳, 宋恩民, 金良海. Otsu准则的阈值性质分析.电子学报, 2009, 37(12):2716-2719 doi: 10.3321/j.issn:0372-2112.2009.12.020

    Xu Xiang-Yang, Song En-Min, Jin Liang-Hai. Characteristic analysis of threshold based on Otsu criterion. Acta Electronica Sinica, 2009, 37(12):2716-2719 doi: 10.3321/j.issn:0372-2112.2009.12.020
    [17] Xue J H, Titterington D M. t-test, F-tests and Otsu's methods for image thresholding. IEEE Transactions on Image Processing, 2011, 20(8):2392-2396 doi: 10.1109/TIP.2011.2114358
    [18] Xue J H, Titterington D M. Median-based image thresholding. Image and Vision Computing, 2011, 29(9):631-637 doi: 10.1016/j.imavis.2011.06.003
    [19] Cai H M, Yang Z, Cao X H, Xia W M, Xu X Y. A new iterative triclass thresholding technique in image segmentation. IEEE Transactions on Image Processing, 2014, 23(3):1038-1046 doi: 10.1109/TIP.2014.2298981
    [20] Fan J L, Lei B. A modified valley-emphasis method for automatic thresholding. Pattern Recognition Letters, 2012, 33(6):703-708 doi: 10.1016/j.patrec.2011.12.009
    [21] Lin Q Q, Ou C J. Tsallis entropy and the long-range correlation in image thresholding. Signal Processing, 2012, 92(12):2931-2939 doi: 10.1016/j.sigpro.2012.05.025
    [22] 章毓晋.图像分割中基于过渡区技术的统计调查.计算机辅助设计与图形学学报, 2015, 27(3):379-387 http://d.old.wanfangdata.com.cn/Periodical/jsjfzsjytxxxb201503001

    Zhang Yu-Jin. A survey on transition region-based techniques for image segmentation. Journal of Computer-Aided Design & Computer Graphics, 2015, 27(3):379-387 http://d.old.wanfangdata.com.cn/Periodical/jsjfzsjytxxxb201503001
    [23] 闫成新, 桑农, 张天序, 曾坤.基于局部复杂度的图像过渡区提取与分割.红外与毫米波学报, 2005, 24(4):312-316 doi: 10.3321/j.issn:1001-9014.2005.04.017

    Yan Cheng-Xin, Sang Nong, Zhang Tian-Xu, Zeng Kun. Image transition region extraction and segmentation based on local complexity. Journal of Infrared and Millimeter Waves, 2005, 24(4):312-316 doi: 10.3321/j.issn:1001-9014.2005.04.017
    [24] 冯涛, 周祖安, 刘其真.基于局部复杂度的图像过渡区处理研究.中国图象图形学报, 2008, 13(10):1894-1897 doi: 10.11834/jig.20081019

    Feng Tao, Zhou Zu-An, Liu Qi-Zhen. Analysis of the image transition region processing based on local complexity. Journal of Image and Graphics, 2008, 13(10):1894-1897 doi: 10.11834/jig.20081019
    [25] 王彦春, 梁德群, 王演.基于图像模糊熵邻域非一致性的过渡区提取与分割.电子学报, 2008, 36(12):2445-2449 doi: 10.3321/j.issn:0372-2112.2008.12.032

    Wang Yan-Chun, Liang De-Qun, Wang Yan. Transition region extraction and segmentation based on image fuzzy entropy neighborhood unhomogeneity. Acta Electronica Sinica, 2008, 36(12):2445-2449 doi: 10.3321/j.issn:0372-2112.2008.12.032
    [26] 刘健庄, 栗文青.灰度图像的二维Otsu自动阈值分割法.自动化学报, 1993, 19(1):101-105 http://www.aas.net.cn/CN/abstract/abstract14268.shtml

    Liu Jian-Zhuang, Li Wen-Qing. The automatic thresholding of gray-level pictures via two-dimensional Otsu method. Acta Automatica Sinica, 1993, 19(1):101-105 http://www.aas.net.cn/CN/abstract/abstract14268.shtml
    [27] 范九伦, 赵凤.灰度图像的二维Otsu曲线阈值分割法.电子学报, 2007, 35(4):751-755 doi: 10.3321/j.issn:0372-2112.2007.04.029

    Fan Jiu-Lun, Zhao Feng. Two-dimensional Otsu's curve thresholding segmentation method for gray-level images. Acta Electronica Sinica, 2007, 35(4):751-755 doi: 10.3321/j.issn:0372-2112.2007.04.029
    [28] 范九伦, 雷博.灰度图像的二维交叉熵直线型阈值分割法.电子学报, 2009, 37(3):476-480 doi: 10.3321/j.issn:0372-2112.2009.03.009

    Fan Jiu-Lun, Lei Bo. Two-dimensional cross-entropy linear-type threshold segmentation method for gray-level images. Acta Electronica Sinica, 2009, 37(3):476-480 doi: 10.3321/j.issn:0372-2112.2009.03.009
    [29] 范九伦, 雷博.灰度图像最小误差阈值分割法的二维推广.自动化学报, 2009, 35(4):386-393 http://www.aas.net.cn/CN/abstract/abstract13382.shtml

    Fan Jiu-Lun, Lei Bo. Two-dimensional extension of minimum error threshold segmentation method for gray-level images. Acta Automatica Sinica, 2009, 35(4):386-393 http://www.aas.net.cn/CN/abstract/abstract13382.shtml
    [30] 吴一全, 张晓杰, 吴诗婳. 2维对称交叉熵图像阈值分割.中国图象图形学报, 2011, 16(8):1393-1401 http://d.old.wanfangdata.com.cn/Periodical/zgtxtxxb-a201108009

    Wu Yi-Quan, Zhang Xiao-Jie, Wu Shi-Hua. Two-dimensional symmetric cross-entropy image thresholding. Journal of Image and Graphics, 2011, 16(8):1393-1401 http://d.old.wanfangdata.com.cn/Periodical/zgtxtxxb-a201108009
    [31] 范九伦, 赵凤, 张雪峰.三维Otsu阈值分割方法的递推算法.电子学报, 2007, 35(7):1398-1402 doi: 10.3321/j.issn:0372-2112.2007.07.034

    Fan Jiu-Lun, Zhao Feng, Zhang Xue-Feng. Recursive algorithm for three-dimensional Otsu's thresholding segmentation method. Acta Electronica Sinica, 2007, 35(7):1398-1402 doi: 10.3321/j.issn:0372-2112.2007.07.034
    [32] 申铉京, 龙建武, 陈海鹏, 魏巍.三维直方图重建和降维的Otsu阈值分割算法.电子学报, 2011, 39(5):1108-1114 http://d.old.wanfangdata.com.cn/Periodical/dianzixb201105022

    Shen Xuan-Jing, Long Jian-Wu, Chen Hai-Peng, Wei Wei. Otsu thresholding algorithm based on rebuilding and dimension reduction of the 3-dimensional histogram. Acta Electronica Sinica, 2011, 39(5):1108-1114 http://d.old.wanfangdata.com.cn/Periodical/dianzixb201105022
    [33] 刘金, 金炜东. 3维自适应最小误差阈值分割法.中国图象图形学报, 2013, 18(11):1416-1424 doi: 10.11834/jig.20131104

    Liu Jin, Jin Wei-Dong. Three-dimensional adaptive minimum error thresholding segmentation algorithm. Journal of Image and Graphics, 2013, 18(11):1416-1424 doi: 10.11834/jig.20131104
    [34] 卢振泰, 吕庆文, 陈武凡.基于最大互信息量的图像自动优化分割.中国图象图形学报, 2008, 13(4):658-661 http://d.old.wanfangdata.com.cn/Periodical/zgtxtxxb-a200804010

    Lu Zhen-Tai, Lv Qing-Wen, Chen Wu-Fan. Unsupervised segmentation of medical image based on maximizing mutual information. Journal of Image and Graphics, 2008, 13(4):658-661 http://d.old.wanfangdata.com.cn/Periodical/zgtxtxxb-a200804010
    [35] Strehl A, Ghosh J. Cluster ensembles——a knowledge reuse framework for combining multiple partitions. The Journal of Machine Learning Research, 2002, 3(3):583-617
    [36] Bemis R. Thresholding tool[Online], available: http://cn.mathworks.com/matlabcentral/fileexchange/6770-thresholding-tool, September 1, 2017.
  • 期刊类型引用(21)

    1. 高哲,剪静. 基于Borges差分的RMSprop算法及在卷积神经网络参数训练中的应用. 辽宁大学学报(自然科学版). 2023(01): 1-9+105 . 百度学术
    2. 秦晓燕,刘禹含,徐云龙,李斌. 强化学习中基于权重梯度下降的函数逼近方法. 网络与信息安全学报. 2023(04): 16-28 . 百度学术
    3. 杜智华,赖振清. 基于深度强化学习实时战略卡牌游戏对战设计. 计算机仿真. 2022(02): 260-265 . 百度学术
    4. 许聪. 基于强化学习的小游戏设计与实现. 信息与电脑(理论版). 2022(07): 91-93 . 百度学术
    5. 张蒙,李凯,吴哲,臧一凡,徐航,兴军亮. 一种针对德州扑克AI的对手建模与策略集成框架. 自动化学报. 2022(04): 1004-1017 . 本站查看
    6. 吴哲,李凯,徐航,兴军亮. 一种用于两人零和博弈对手适应的元策略演化学习算法. 自动化学报. 2022(10): 2462-2473 . 本站查看
    7. 杜康豪,宋睿卓,魏庆来. 强化学习在机器博弈上的应用综述. 控制工程. 2021(10): 1998-2004 . 百度学术
    8. 刘昌平,刘海,夏梦,尹光彩. 俄罗斯方块的Hamming神经网络模型. 计算机与现代化. 2020(02): 51-54 . 百度学术
    9. 容梓豪. 深度强化学习股票算法交易系统应用. 电脑知识与技术. 2020(23): 75-76 . 百度学术
    10. 冀俊忠,张旗. 基于影响函数的卷积神经网络围棋棋步预测方法. 北京工业大学学报. 2019(01): 54-60 . 百度学术
    11. 李梦诗,余达,陈子明,夏侯凯顺,李堉鋆,季天瑶. 基于深度置信网络的风力发电机故障诊断方法. 电机与控制学报. 2019(02): 114-122 . 百度学术
    12. 郭军军,白硕栋,王乐. 基于深度学习的实用HDPC码译码方法研究. 计算机系统应用. 2019(04): 247-251 . 百度学术
    13. 赵英男,刘鹏,赵巍,唐降龙. 深度Q学习的二次主动采样方法. 自动化学报. 2019(10): 1870-1882 . 本站查看
    14. 汤鹏杰,王瀚漓,许恺晟. LSTM逐层多目标优化及多层概率融合的图像描述. 自动化学报. 2018(07): 1237-1249 . 本站查看
    15. 邱梁东. 机器学习与游戏的思考. 数码世界. 2018(03): 66 . 百度学术
    16. 张小川,李琴,南海,彭丽蓉. 改进UCT算法在爱恩斯坦棋中的应用. 计算机科学. 2018(12): 196-200 . 百度学术
    17. 李飞,高晓光,万开方. 基于改进并行回火算法的RBM网络训练研究. 自动化学报. 2017(05): 753-764 . 本站查看
    18. 李飞,高晓光,万开方. 基于权值动量的RBM加速学习算法研究. 自动化学报. 2017(07): 1142-1159 . 本站查看
    19. 乔俊飞,王功明,李晓理,韩红桂,柴伟. 基于自适应学习率的深度信念网设计与应用. 自动化学报. 2017(08): 1339-1349 . 本站查看
    20. 王庆福. 基于神经网络的深度学习方法研究. 电脑编程技巧与维护. 2016(12): 49-50 . 百度学术
    21. 赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红. 深度强化学习综述:兼论计算机围棋的发展. 控制理论与应用. 2016(06): 701-717 . 百度学术

    其他类型引用(34)

  • 加载中
  • 图(7) / 表(5)
    计量
    • 文章访问数:  2448
    • HTML全文浏览量:  450
    • PDF下载量:  419
    • 被引次数: 55
    出版历程
    • 收稿日期:  2017-05-23
    • 录用日期:  2017-08-29
    • 刊出日期:  2019-07-20

    目录

    /

    返回文章
    返回