2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于移动机器人的拣货系统研究进展

徐翔斌 马中强

王彪新, 伍益明, 郑宁, 徐明. 虚假数据注入攻击下多机器人系统协同寻源. 自动化学报, 2024, 50(2): 403−416 doi: 10.16383/j.aas.c230252
引用本文: 徐翔斌, 马中强. 基于移动机器人的拣货系统研究进展. 自动化学报, 2022, 48(1): 1−20 doi: 10.16383/j.aas.c190728
Wang Biao-Xin, Wu Yi-Ming, Zheng Ning, Xu Ming. Multi-robot system cooperative source seeking under false data injection attack. Acta Automatica Sinica, 2024, 50(2): 403−416 doi: 10.16383/j.aas.c230252
Citation: Xu Xiang-Bin, Ma Zhong-Qiang. Robotic mobile fulfillment systems: State-of-the-art and prospects. Acta Automatica Sinica, 2022, 48(1): 1−20 doi: 10.16383/j.aas.c190728

基于移动机器人的拣货系统研究进展

doi: 10.16383/j.aas.c190728
基金项目: 国家自然科学基金(71761013), 江西省自然科学基金面上项目(20181BAB201010)资助
详细信息
    作者简介:

    徐翔斌:华东交通大学交通运输与物流学院教授. 2015年获得中南大学工学博士学位. 主要研究方向为物流与供应链管理, 本文通信作者. E-mail: champagnewq@aliyun.com

    马中强:中南大学交通运输工程学院博士研究生. 主要研究方向为仓库拣货优化, 智能优化算法. E-mail: mzq11302@163.com

Robotic Mobile Fulfillment Systems: State-of-the-art and Prospects

Funds: Supported by National Natural Science Foundation of China (71761013), General Program of Natural Science Foundation of Jiangxi Province (20181BAB201010)
More Information
    Author Bio:

    XU Xiang-Bin Professor at the School of Transportation and Logistics, East China Jiaotong University. He received his Ph. D. degree from Central South University, Chinese Academy of Sciences in 2015. His research interest covers logistics and supply chain management. Corresponding author of this paper

    MA Zhong-Qiang Ph.D. candidate at the School of Traffic and Transportation Engineering at Central South University. His research interest covers warehouse picking optimization and intelligent optimization algorithm

  • 摘要: 基于移动机器人的拣货系统(Robotic mobile fulfillment systems, RMFS)作为一种新型物至人的拣货系统, 相比人工拣货系统和AS/RS拣货系统(下文统称传统拣货系统)具有更高的拣货效率、更好的系统可扩展性和柔性. 为全面了解RMFS的运行模式及其优化方向, 本文首先回顾了RMFS的工作流程及优化理论框架, 然后对RMFS的货位指派、订单分批、任务分配、路径规划以及建模方法等问题进行了文献回顾和总结, 并指出了RMFS与传统拣货系统在拣货过程方面的异同及当前研究的不足. 最后, 讨论了RMFS的几个重要研究方向, 为RMFS的理论研究和应用实践提供参考.
  • PID控制因算法结构简单、易于实现, 在实际过程控制中得到广泛应用. 但对具有强非线性和不确定性的工业过程, PID控制往往难以取得满意的控制效果. 基于模型的先进控制技术长期以来占据着控制理论与应用领域的主要方向. 然而, 近年来化工、冶金等生产制造业规模日益壮大, 生产工艺、设备变得越来越复杂[1], 使得依据物理和化学等机理建立精确数学模型对生产过程或设备进行监测和控制的传统方法变得越来越难以实现[2]. 当前, 在难以建立系统精确机理模型的情况下, 如何有效利用大量隐含过程和设备变化信息的离线、在线数据和知识, 实现对具有复杂动态特性和强非线性系统的自适应控制[3-4], 已成为控制领域亟待解决的问题.

    自适应控制的基本思想是能够不断感知被控对象变化来调整控制参数, 从而使系统运行于最佳状态[5]. 工业系统的规模化、集成化和复杂化, 促进了自适应控制技术的研究与应用. 根据自适应律的设计方法, 自适应控制主要分为基于稳定性理论的方案和基于参数估计的设计方案, 具有典型代表性的是模型参考自适应控制和自校正控制[6]. 自校正控制源于随机调节问题, 主要采用随机离散模型描述被控对象, 多用于工业过程控制[7]. 由于传统的自适应控制适用于参数缓慢变化的线性系统[8], 当系统具有参数不确定或强时变性, 尤其是面对强非线性系统时, 其效果难以令人满意. 近年来, “控制导向系统辨识”[9]的研究为非线性动态系统的自适应控制方法注入了动力. 以非线性控制系统设计为目标驱动的综合化系统辨识的关键问题之一是选择通用、便于控制器设计并具有高精度的非线性模型[10]. 传统的线性化模型显然无法满足动态变化复杂的非线性系统的控制要求. 现有用以解决非线性控制问题的模型处理方法[11]存在一定的局限性: 1)平衡点线性化模型提出用神经网络[12]弥补工作点附近的主导动态模型, 但由于神经网络本身存在结构和非线性映射复杂的特点, 其高复杂度和大计算量增加了控制器设计的难度; 2) 反馈输入输出线性化模型和反步法反馈线性化模型要求必须获取系统状态空间模型[13]; 3) 分段线性化模型的分段区间数和计算复杂度随系统的非线性强度上升. 然而, 线性化处理的模型仅能保证良好的局部性能, 存在难以描述全局特性的通病. NARMAX模型利用迟滞变量描述非线性动态模型[14]已具有较完善的理论架构, 但其模型复杂度高和求解困难, 很难在工业过程中在线运用. 因此寻找一种低成本的非线性建模方法是提升非线性自适应控制性能的关键.

    为实现对一般性非线性系统的辨识与控制, Chen等[15]提出将一类离散时间非线性动态系统表示成线性模型与高阶非线性项(未建模动态)的组合模型, 采用线性鲁棒自适应控制器、基于神经网络的非线性自适应控制器以及切换机制相结合的控制结构. 文献[16-18]放宽了这一组合控制结构的系统零动态渐近稳定条件, 并严格进行了稳定性及收敛性分析. 文献[16]将磨矿过程的动态特性变化用线性和高阶非线性的组合模型描述, 通过设计消除前一时刻未建模动态补偿信号的PI控制器, 结合一步最优前馈控制和提升技术, 提出了一种双速率区间控制算法. 文献[17]提出一种交替辨识方案对基于投影算法的线性模型和基于神经网络的高阶未建模动态项进行估计. 但由于神经网络结构复杂, 估计性能与初始参数的设置密切相关, 且网络训练容易陷入局部极小, 这种方法实际应用时往往性能不稳定. 文献[18]将自适应神经模糊系统用于设计非线性系统未建模动态补偿器, 采用一一映射[19]将可能无界的未建模动态的定义域转化成一个有界闭集, 保证了自适应神经模糊系统万能逼近特性, 避免了传统神经网络的固有缺陷对控制性能的影响.

    上述方法利用未建模动态项补偿线性控制器为解决非线性动态系统的自适应控制提供了有效方案, 实际应用时, 多采用线性模型和高阶非线性项交替辨识的方法. 控制性能与辨识模型质量密切相关, 但据我们所知, 还没有成果证明该交替辨识方法能够保证模型的整体无限逼近特性. 实际上, 交替辨识结果是由两个逼近器参与运算所得, 根据近似值运算的误差限理论[20]可得$ \zeta \left( {{{\left( {{x_1} + {x_2}} \right)}^*}} \right) \le \zeta \left( {{x_1}^*} \right) + \zeta \left( {{x_2}^*} \right) $, 因此, 此类交替辨识方法存在误差限增长的潜在可能, 不具有数值稳定性. 此外, 现有未建模动态模型建立过程中均没有考虑模型紧致性的问题, 为提高逼近性能往往构建的模型较为复杂, 使得在实际计算资源有限的工业控制器中难以使用.

    针对上述控制方法的不足, 本文提出了一种基于随机配置网络(Stochastic configuration network, SCN)数据驱动模型的自适应控制方法. 其通过设计具有直链与增强结构的SCN, 实现对系统线性部分和高阶非线性项的整体建模, 避免交替辨识中存在的数值不稳定性; 并根据监督增量学习方法构造增强节点, 利用离线数据实现模型结构和模型参数的自学习, 有效提高对非线性系统的建模精度及速度; 进一步结合一步超前最优策略设计基于未建模动态补偿的自适应控制器, 给出了控制方法的收敛性和稳定性分析, 并通过仿真验证所提方法的有效性.

    一类难以用精确数学模型描述的单输入单输出(Single-input single-output, SISO)非线性被控对象可以描述为

    $$ \begin{equation} \begin{split} y\left( {k + 1} \right) = \;&f\left( {y\left( k \right), \cdots,y\left( {k - {n_A} + 1} \right),} \right.\\ &\left. {{\rm{ }}u\left( k \right), \cdots ,u\left( {k - {n_B}} \right)} \right) \end{split}\ \end{equation} $$ (1)

    其中, $ u\left( k \right) $和$ y\left( k \right) $分别是系统输入和输出; k表示kT, T为控制周期; $f\left( \cdot \right) \in {\bf{R }}$表示未知的非线性函数; $ {n_A} $和$ {n_B} $为系统的阶次.

    定义$p\;\left( {p = {n_A} + {n_B} + 1} \right)$维输入向量$ {{{\boldsymbol{ X}}}_v}\left( k \right) $:

    $$ \begin{equation} \begin{split} {{{\boldsymbol{ X}}}_v}\left( k \right) =\;& \left[ {y\left( k \right), \cdots ,y\left( {k - {n_A} + 1} \right),} \right.\\ &{\left. {u\left( k \right), \cdots ,u\left( {k - {n_B}} \right)} \right]^{\rm T}} \end{split}\ \end{equation} $$ (2)

    则式(1)可表示为

    $$ \begin{equation} y\left( {k + 1} \right) = f\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)\ \end{equation} $$ (3)

    进一步可将上述一类SISO非线性被控对象描述为低阶线性模型和高阶非线性(未建模动态)项的组合模型[18], 即

    $$ \begin{equation} A\left( {{z^{ - 1}}} \right)y\left( {k + 1} \right) = B\left( {{z^{ - 1}}} \right)u\left( k \right) + v\left( {\left[ {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right]} \right)\ \end{equation} $$ (4)

    式中, $ A\left( {{z^{ - 1}}} \right) $和$ B\left( {{z^{ - 1}}} \right) $分别为

    $$ A\left( {{z^{ - 1}}} \right) = 1 + {a_1}{z^{ - 1}} + \cdots + {a_{{n_A}}}{z^{ - {n_A}}} $$
    $$ B\left( {{z^{ - 1}}} \right) = {b_0} + {b_1}{z^{ - 1}} + \cdots + {b_{{n_B}}}{z^{ - {n_B}}} $$

    其中, ${a_i}\;( {i = 1, \cdots ,{n_A}} )$ 和 ${b_j}\;( {j =0, 1, \cdots ,{n_B}} )$ 分别为非线性系统在工作点处的一阶Taylor系数. $ v( {[ {{{{\boldsymbol{ X}}}_v}( k )} ]} ) $是未建模动态项, 且$ v( {[ {{{{\boldsymbol{ X}}}_v}( k )} ]} ) $有界, 即$| {v( {[ {{{{\boldsymbol{ X}}}_v}( k )} ]} )} | \le M$, 其中$M $为一个已知的正常数, 表示误差上界.

    由此, 控制目标如下:

    1) 保证闭环系统输入输出信号为有界输入有界输出(Bounded-input bounded-output, BIBO)一致稳定;

    2) 系统输出$ y\left( k \right) $渐近跟踪参考输入$ {y_{sp}}\left( k \right) $的变化, 使其稳态误差小于或等于预先确定的值$\varepsilon\; ( \varepsilon > 0)$, 即$\mathop {\lim }\nolimits_{k \to \infty } \left| {y\left( k \right) - {y_{sp}}\left( k \right)} \right| \le \varepsilon$.

    本文针对由式(4)所示的非线性系统模型, 设计带有直链和增强结构的SCN, 通过监督机制与增量构造技术, 建立非线性系统数据驱动的建模方法. 如图1所示, SCN为一种具有扁平结构的随机神经网络[21], 其特点是: 1)引入监督机制对隐含层随机参数加以约束; 2) 根据数据自适应地调整随机范围. 基于上述两点, SCN有效保证了模型的快速学习特性、无限逼近能力和良好的泛化性能. 本文为进一步提高SCN的表达能力, 借鉴随机向量函数链神经网络结构[22], 构建了由直链和增强两部分组成的SCN, 用于建立非线性系统的数据驱动模型. 其中, 直链部分由输入层直接链接到输出层, 代表模型线性结构; 增强部分为隐含层, 代表模型的非线性结构, 决定模型的表达能力, 对模型精度具有较大的影响. 模型结构的调整在于增强部分, 其需要在监督约束下以增量方式构造, 同时随模型结构的调整不断更新模型参数, 实现模型结构和参数的同时自主调整.

    图 1  带直链的随机配置网络
    Fig. 1  Stochastic configuration network with direct link

    增量构造是一种同时解决网络模型结构和模型参数优化问题的有效方法. 本文从直链部分开始, 向模型中逐渐添加增强节点, 直至达到满意的模型精度为止, 实现了模型的自主学习. 在构造增强节点时根据监督机制将输入权值和偏置在可调区间内加以约束地随机分配, 并在每个增强节点加入网络时, 通过多次分配随机参数建立满足约束条件的候选“节点池”, 从中选出最佳增强节点以加快网络的收敛速度, 具体方法如下.

    考虑到过多的历史数据不仅对非线性系统的辨识精度提升作用不大, 反而会增加模型的复杂度和在线学习的负荷, 本文采用${{{\boldsymbol{ X}}}_v}( k ) = {[ {{x_1(k)}, \cdots ,{x_p(k)}} ]^{\rm T}} = {[ {y( k ), \cdots ,y( {k - {n_A} + 1} ),u( k ), \cdots ,u( {k - {n_B}} )} ]^{\rm T}}$作为输入. 此时, 过程模型可表示为

    $$ \begin{equation} {y_L}= \sum\limits_{j = 1}^p {{\beta _{1,j}}{x_j(k)}} + \sum\limits_{m = 1}^L {{\beta _{2,m}}{h_m}\left( {{w_m},{b_m},{{{\boldsymbol{ X}}}_v(k)}} \right)} \ \end{equation} $$ (5)

    其中, $ {y_L} $表示具有L个增强节点的模型输出; $ {{{\boldsymbol{ \beta}}} _1}= \left\{ {{\beta _{1,j}}} \right\} $$ \left( {j = 1,2, \cdots ,p} \right) $为第j个输入节点到输出节点间的输出权重; $ {{{\boldsymbol{ \beta}}} _2} = \left\{ {{\beta _{2,m}}} \right\} $$( m = 1,2, \cdots , L)$为第$ m $个增强节点到输出节点间的输出权重; $ {w_m} $和$ {b_m} $表示从输入层到第m个增强节点的输入权重和偏置, 即增强节点的随机参数; $ {h_m}\left( \cdot \right) $表示第m个增强节点的激活函数, 本文选用$ \rm sigmoid $函数. 为简单起见, 令增强节点${h_m}\,\left( {{w_m},{b_m},{{{\boldsymbol{ X}}}_v(k)}} \right)= h_m\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) .$

    由式(4)可得:

    $$ \begin{equation} \begin{split} y\left( {k + 1} \right) = \;& - \bar A\left( {{z^{ - 1}}} \right)y\left( k \right) + \\ & B\left( {{z^{ - 1}}} \right)u\left( k \right) + v\left( {\left[ {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right]} \right) \end{split}\ \end{equation} $$ (6)

    其中, $\bar A({z^{ - 1}}) = z\left[ {A({z^{ - 1}}) - 1} \right] = {a_1} + {a_2}{z^{ - 1}} + \cdots + {a_{{n_A}}}{z^{ - {n_A} + 1}}$.

    将式(5)进一步改写为

    $$ \begin{equation} \begin{split} {y_L} = \;&\sum\limits_{j = 1}^{{n_{{A}}}} {{\beta _{1,j}}{x_j}\left( k \right)} + \sum\limits_{j = {n_{{A}}} + 1}^p {{\beta _{1,j}}{x_j}\left( k \right)} \;+ \\ & \sum\limits_{m = 1}^L {{\beta _{2,m}}{h_m}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \end{split}\ \end{equation} $$ (7)

    由此可以看出, 网络的直链部分$\sum\nolimits_{j\, =\, 1}^{{n_{{A}}}} {{\beta _{1,j}}{x_j}\left( k \right)}$和$\sum\nolimits_{j \,=\, {n_{{A}}}\, + \,1}^p \,{{\beta _{1,j}}{x_j}\left( k \right)}$分别是对$ -\bar A\left( {{z^{ - 1}}} \right)y\left( k \right) $和$ B\left( {{z^{ - 1}}} \right)u\left( k \right) $的估计, 代表了模型的线性部分, 即

    $$ \begin{equation} \begin{split} &- {{\hat a}_1} - {{\hat a}_2}{z^{ - 1}} - \cdots - {{\hat a}_{{n_A}}}{z^{ - {n_A} + 1}} = \\ &\qquad{\beta _{1,1}} + {\beta _{1,2}}{z^{ - 1}} + \cdots + {\beta _{1,{n_A}}}{z^{ - {n_A} + 1}} \end{split}\ \end{equation} $$ (8)
    $$ \begin{equation} \begin{split} &{{\hat b}_0} + {{\hat b}_1}{z^{ - 1}} + \cdots + {{\hat b}_{{n_B}}}{z^{ - {n_B}}} = \\ &\qquad{\beta _{1,{n_A} + 1}} + {\beta _{1,{n_A} + 2}}{z^{ - 1}} + \cdots + {\beta _{1,{n_A} + {n_B} + 1}}{z^{ - {n_B}}} \end{split}\ \end{equation} $$ (9)

    模型的增强部分$ \sum\nolimits_{m = 1}^L {{\beta _{2,m}}{h_m}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} $为未建模动态项的估计量$ \hat v\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) $. 当前模型输出与真实值之间的残差表示为$ {e_L} = y - {y_L} $, 如果$ \left\| {{e_L}} \right\| $没有达到预先指定的误差容忍度, 需要在监督机制下生成一个新的增强节点$ {h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) $, 并计算新节点的输出权重$ {\beta _{L + 1}} $, 更新模型输出${y_{L + 1}} = {y_L} + {\beta _{2,L + 1}}{h_{L + 1}}( {{{{\boldsymbol{ X}}}_v}( k )} )$, 以使模型精度得到提高.

    模型构造从如下的直链部分开始

    $$ \begin{equation} y_0= \sum\limits_{j = 1}^p {{\beta _{1,j}}{x_j}(k)} \ \end{equation} $$ (10)

    随后, 向模型中加入如下的约束条件以逐个添加增强节点.

    $$ \begin{equation} {\langle {{e_L},{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \rangle ^2} \ge b_h^2{\delta _{L + 1}}\ \end{equation} $$ (11)

    其中, 假设${\rm{span}}(\Gamma) $是在 $ {L_2} $空间上稠密的, 使得 ${b_h} \in {{\bf R\;}^ + }$ 满足 $ \forall h\left( \cdot \right) \in \Gamma ,0 < \left\| {h\left( \cdot \right)} \right\| < {b_h} $. 此外, 给定非负实数序列$ {r_{L + 1}} = L/\left( {L + 1} \right) $和非负实数序列${\mu _{L + 1}} = \left( {1 - {r_{L + 1}}} \right)/\left( {L + 1} \right)$[23], 则当构造第$ L + 1 $个节点时, 定义$ {\delta _{L + 1}} = \left( {1 - r_{L + 1} - {\mu _{L + 1}}} \right){\left\| {{e_L}} \right\|^2} $, 则有

    $$ \begin{equation} \begin{split} {\xi _{L + 1}} = \;&\frac{{{{\langle {{e_L},{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \rangle }^2}}}{{{{\left\| {{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right\|}^2}}} \;- \\ &\left( {1 - {r_{L + 1}} - {\mu _{L + 1}}} \right)\langle {{e_{L + 1}},{e_{L + 1}}} \rangle \end{split}\ \end{equation} $$ (12)

    正值$ {\xi _{L + 1}} $越大, 则输入权值及偏置的配置效果越好. 首先在某个随机权重范围系下生成$ {T^{\max }} $组候选节点集合$\{ {h_{L + 1}^{\left( 1 \right)}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right), \cdots ,h_{L + 1}^{\left( {{T^{\max }}} \right)}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \}$, 并从中筛选出使得$ {\xi _{L + 1}} $为正值的最大的节点; 最后确定$ {\xi _{L + 1}} $最大时对应的输入权重和偏置为当前增强节点的最佳参数.

    决定模型精度的因素除模型结构外, 还包括模型参数即$ {{{\boldsymbol{ \beta}}} _L} $, 其求解过程采用两个阶段进行:

    1)构建增强节点前, 直链部分的输出函数可描述为式(10).

    通常情况下输入节点个数会远远小于离线数据的数量N, 即$ p \ll N $, 此时$ {{\boldsymbol{ X}}} $不是方阵, 可能找不到$ {{{\boldsymbol{ \beta}}} _1} $使$ {{\boldsymbol{ Y}}} = {{{\boldsymbol{ X}}}_v}{{{\boldsymbol{ \beta}}} _1} $成立, 为此采用最小二乘法进行求解, 即

    $$ \begin{equation} {{{\boldsymbol{ \beta}}} _1} = {\left( {{{\boldsymbol{X}}}_v^\mathrm{T}{{{\boldsymbol{ X}}}_v}} \right)^{ - 1}}{{\boldsymbol{ X}}}_v^\mathrm{T}{{\boldsymbol{ Y}}}\ \end{equation} $$ (13)

    2)当构造第$ {L + 1}$个增强节点时, 模型为

    $$ \begin{equation} {y_{L + 1}} = {y_L} + {\beta _{2,L + 1}}{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)\ \end{equation} $$ (14)

    通过使$ \left\| {y - {y_{L + 1}}} \right\| = 0 $进行参数寻优, 即

    $$ \begin{equation} y - \left( {{y_L} + {\beta _{2,L + 1}}{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right) = 0\ \end{equation} $$ (15)

    使等号两端同时平方并对$ {\beta _{2,L+1}} $求导, 可得

    $$ \begin{equation} \begin{split}&\frac{{ \partial {{\left[ {y - \left( {{y_L} + {\beta _{2,L + 1}}{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right)} \right]}^2}}}{{ \partial {\beta _{2,L + 1}}}} = \\ &\qquad\frac{{ \partial {{\left[ {{e_L} - {\beta _{2,L + 1}}{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right]}^2}}}{{ \partial {\beta _{2,L + 1}}}} = 0 \end{split}\ \end{equation} $$ (16)

    易证得新增增强节点的输出权重$ {\beta _{2,L + 1}} $为

    $$ \begin{equation} {\beta _{2,L + 1}} = \frac{{\langle {{e_L},{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \rangle }}{{{{\left\| {{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right\|}^2}}}\ \end{equation} $$ (17)

    下面给出SCN模型的收敛性证明.

    易知$ 0 < {r_{L + 1}} < 1 $, 由文献[21]可知${\left\| {e_{L + 1}^*} \right\|^2} \le \left( {{r_{L + 1}} + {\mu _{L + 1}}} \right)\left\| {e_L^*} \right\|$.

    考虑到以下不等式

    $$ \begin{equation} 1 - x < {\mathrm{e}^{ - x}},x > 0\ \end{equation} $$ (18)
    $$ \begin{equation} \sum\limits_{i = 1}^k {\frac{1}{{i + 1}} > } \ln \left( {1 + \frac{k}{2}} \right)\ \end{equation} $$ (19)
    $$ \begin{equation} \sum\limits_{i = 1}^k {\frac{1}{{{{\left( {i + 1} \right)}^2}}} < 1 - \frac{1}{{k + 1}}} \ \end{equation} $$ (20)

    可得:

    $$\begin{split} \left\| {e_{L + 1}^*} \right\|^2& \le \left( {{r_{L + 1}} + {\mu _{L + 1}}} \right){\left\| {e_L^*} \right\|^2} \le\\ &\mathop \Pi \limits_{i = 1}^{L} \left( {{r_i} + {\mu _i}} \right){\left\| {e_0^*} \right\|^2}\le \\ &\mathop \Pi \limits_{i = 1}^{L} \left( { \frac{i}{{i + 1}} + \frac{1}{{{{\left( {i + 1} \right)}^2}}}} \right){\left\| {e_0^*} \right\|^2}=\\ & \mathop \Pi \limits_{i = 1}^{L} \left( {1 - \frac{1}{{i + 1}}\left( {1 - \frac{1}{{i + 1}}} \right)} \right){\left\| {e_0^*} \right\|^2}<\\ & \exp \left( { - \sum\limits_{i = 1}^L {\left( { \frac{1}{{i + 1}}\left( {1 - \frac{1}{{i + 1}}} \right)} \right)} } \right){\left\| {e_0^*} \right\|^2}=\\ & \exp \left( { - \sum\limits_{i = 1}^L {\left( { \frac{1}{{i + 1}} - \frac{1}{{{{\left( {i + 1} \right)}^2}}}} \right)} } \right){\left\| {e_0^*} \right\|^2}<\end{split} $$
    $$\begin{split} & \exp \left( { - \ln \left( {1 + \frac{{L}}{2}} \right) + 1 - \frac{1}{{L + 1}}} \right){\left\| {e_0^*} \right\|^2}=\\ & \frac{2}{{L + 2}}\exp \left( { \frac{L}{{L + 1}}} \right){\left\| {e_0^*} \right\|^2} \end{split} $$ (21)

    可得: $\mathop {\lim }\nolimits_{L \to \infty } {\left\| {{e_{L + 1}}} \right\|^2} = 0,$ 即$\mathop {\lim }\nolimits_{L \to \infty } \left\| {{e_{L + 1}}} \right\| = 0$. 因此, 残差序列$ \left\| {{e_{L + 1}}} \right\| $单调递减且收敛于0.

    基于所提出的数据驱动模型设计自适应控制系统, 包括数据驱动线性自适应控制器和虚拟未建模动态补偿器, 如图2所示.

    图 2  基于SCN数据驱动模型的自适应控制方法结构图
    Fig. 2  Structure diagram of adaptive control method with SCN-based data-driven model

    非线性系统的控制输入为

    $$ \begin{equation} \begin{split} u\left( k \right) =\;& u\left( {k - 1} \right) + {k_P}\left[ {e\left( k \right) - e\left( {k - 1} \right)} \right] + \\ &{k_I}e\left( k \right) - K\left( {{z^{ - 1}}} \right)\hat v\left( k \right) \end{split}\ \end{equation} $$ (22)

    其中, 线性自适应控制器采用PI控制律, $ {k_P} $, $ {k_I} $为比例、积分系数. $ K\left( {{z^{ - 1}}} \right) $是$ {z^{ - 1}} $的多项式, $ e\left( k \right) $为跟踪误差, 定义为$ e\left( k \right) = {y_{sp}}\left( k \right) - y\left( k \right) $, $ {y_{sp}}\left( k \right) $为期望输出.

    将$ e\left( k \right) $表达式代入式(22), 由单位迟滞算子得

    $$ \begin{equation} \begin{split} H\left( {{z^{ - 1}}} \right)u\left( k \right) =\;& G\left( {{z^{ - 1}}} \right)\left[ {{y_{sp}}\left( k \right) - y\left( k \right)} \right] - \\ &K\left( {{z^{ - 1}}} \right)\hat v\left( k \right) \end{split}\ \end{equation} $$ (23)

    代入式(4), 有

    $$ \begin{equation} \begin{split} &\left[ {H\left( {{z^{ - 1}}} \right)\hat A\left( {{z^{ - 1}}} \right) + {z^{ - 1}}\hat B\left( {{z^{ - 1}}} \right)G\left( {{z^{ - 1}}} \right)} \right] y\left( {k + 1} \right) = \\ &\qquad\hat B\left( {{z^{ - 1}}} \right)G\left( {{z^{ - 1}}} \right){y_{sp}}(k) + \left[ {H\left( {{z^{ - 1}}} \right) - } \right.\\ &\qquad\left. {\hat B\left( {{z^{ - 1}}} \right)K\left( {{z^{ - 1}}} \right)} \right]\hat v\left( k \right) \\[-10pt]\end{split} \end{equation} $$ (24)

    其中, $ H\left( {{z^{ - 1}}} \right) = 1 - {z^ {- 1}} $, $ G\left( {{z^{ - 1}}} \right) = {g_0} + {g_1}{z^{ - 1}} $, 其中$ {g_0} = {k_P} + {k_I} $, $ {g_1} = - {k_P} $. $ \hat A\left( {{z^{ - 1}}} \right) $和$ \hat B\left( {{z^{ - 1}}} \right) $分别为低阶线性模型参数$ A\left( {{z^{ - 1}}} \right) $和$ B\left( {{z^{ - 1}}} \right) $的估计值, 可由SCN的直链部分获得. $ \hat v\left( k \right) $为虚拟未建模动态项, 可由SCN的增强部分获得.

    为消除非线性动态项的影响, 可令$H\left( {{z^{ - 1}}} \right) - \hat B\left( {{z^{ - 1}}} \right)K\left( {{z^{ - 1}}} \right) = 0$, 即可得到$ K\left( {{z^{ - 1}}} \right) $为

    $$ \begin{equation} K\left( {{z^{ - 1}}} \right) = \frac{{H\left( {{z^{ - 1}}} \right)}}{{\hat B\left( {{z^{ - 1}}} \right)}}\ \end{equation} $$ (25)

    采用一步超前最优控制策略[18]进行控制器设计. 被控对象$ k + 1 $时刻的输出$ \varphi \left( {k + 1} \right) $与理想输出$ {y^*}\left( {k + 1} \right) $的误差的方差最小时能够跟踪参考输入, 得到最小方差的调节器性能指标J

    $$ \begin{equation} \begin{split} J =\;& \left[ {P\left( {{z^{ - 1}}} \right)y\left( {k + 1} \right) - \bar G\left( {{z^{ - 1}}} \right){y_{sp}}\left( k \right) + } \right.\\ &{\left. {{\rm{ }}Q\left( {{z^{ - 1}}} \right)u\left( k \right) + \bar K\left( {{z^{ - 1}}} \right)\hat v\left( k \right)} \right]^2} \end{split}\ \end{equation} $$ (26)

    其中, $ P\left( {{z^{ - 1}}} \right) $、$ Q\left( {{z^{ - 1}}} \right) $均为关于$ {z^{ - 1}} $的加权多项式, $ \bar K\left( {{z^{ - 1}}} \right) $和$ \bar G\left( {{z^{ - 1}}} \right) $为控制器参数多项式.

    引入$ {\rm Diophantine} $方程

    $$ \begin{equation} P\left( {{z^{ - 1}}} \right) = F\left( {{z^{ - 1}}} \right)\hat A\left( {{z^{ - 1}}} \right) + {z^{ - 1}}\bar G\left( {{z^{ - 1}}} \right)\ \end{equation} $$ (27)

    其中, $ \bar F\left( {{z^{ - 1}}} \right) $为关于$ {z^{ - 1}} $的加权多项式.

    令$J=0 $, 得到使式(26)极小的最优控制律

    $$ \begin{equation} \begin{split}& \left[ {Q\left( {{z^{ - 1}}} \right) + F\left( {{z^{ - 1}}} \right)\hat B\left( {{z^{ - 1}}} \right)} \right]u\left( k \right) = \\ &\qquad\bar G \left( {{z^{ - 1}}} \right)\left[ {{y_{sp}}\left( k \right) - y\left( k \right)} \right] + \left[ {\bar K\left( {{z^{ - 1}}} \right) + } \right.\\ &\quad\;\;\left. {F\left( {{z^{ - 1}}} \right)} \right]\hat v\left( k \right) \end{split}\ \end{equation} $$ (28)

    对比式(23)和式(28), 控制器参数多项式有$K( {{z^{ - 1}}} ) = \bar K( {{z^{ - 1}}} ) + F(z^{-1}),$ $G( {{z^{ - 1}}} ) = \bar G( {{z^{ - 1}}} ),$ $\bar G( {{z^{ - 1}}} )$由Diophantine方程式(27)唯一确定.

    为求解上述控制器, 首先利用SCN数据驱动模型辨识非线性系统式(4), 即

    $$ \begin{equation} \begin{split} y\left( {k + 1} \right) = \;&\beta _{_{1,1}}^ky\left( k \right) + \cdots + \beta _{_{1,{n_A}}}^ky\left( {k - {n_A} + 1} \right) + \\ &\beta _{_{1,{n_A} + 1}}^ku\left( k \right) + \cdots + \\ &\beta _{_{1,{n_A} + {n_B} + 1}}^ku\left( {k - {n_B}} \right) + \\ &\beta _{2,1}^kh\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) + \cdots + \beta _{2,L}^kh\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) \end{split}\ \end{equation} $$ (29)

    提取线性模型参数的估计值$ \hat A\left( {{z^{ - 1}}} \right) $和$ \hat B\left( {{z^{ - 1}}} \right) $以及虚拟未建模动态项$ \hat v\left( {{{{{\boldsymbol{ X}}}_v}\left( k \right)} } \right) $, 则$k+1 $时刻系统表示为

    $$ \begin{equation} {\hat A^k}\left( {{z^{ - 1}}} \right)\hat y\left( {k + 1} \right) = {\hat B^k}\left( {{z^{ - 1}}} \right)u\left( k \right) + \hat v\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)\ \end{equation} $$ (30)

    其中, 线性模型参数多项式为

    $$ \begin{equation} \left\{ \begin{aligned} &{{\hat A}^k}\left( {{z^{ - 1}}} \right) = 1 + \beta _{_{1,1}}^k{z^{ - 1}} + \cdots + \beta _{_{1,{n_A}}}^k{z^{ - {n_A}}}\\ &{{\hat B}^k}\left( {{z^{ - 1}}} \right) = \beta _{_{1,{n_A} + 1}}^k + \cdots + \beta _{_{1,{n_A} + {n_B} + 1}}^k{z^{ - {n_B}}} \end{aligned} \right.\ \end{equation} $$ (31)

    未建模动态项估计值为

    $$ \begin{equation} \begin{split} \hat v\left( {{{{{\boldsymbol{ X}}}_v}\left( k \right)} } \right) = \;&\beta _{2,1}^k{h_1}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right){\rm{ + }} \cdots {\rm{ + }}\\ &\beta _{2,L}^k{h_L}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) \end{split}\ \end{equation} $$ (32)

    式中, $\beta _{2,1}^k$表示k时刻模型参数的更新值. 定义拓展输入$ {{\boldsymbol{ \Phi}}}=\left[ {{{{\boldsymbol{ X}}}_v};{{{\boldsymbol{ H}}}_v}} \right] $, 包括输入$ {{{\boldsymbol{ X}}}_v} $和增强节点输出${{\boldsymbol{H}}_v}$; 输出权值$ {{\boldsymbol{ \theta}}} = \left[ {{{{\boldsymbol{ \beta}}} _{_1}^k};{{{\boldsymbol{ \beta}}} _{_2}^k}} \right] $, ${{\boldsymbol{ X}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _1}$表示低阶线性模型, ${{\boldsymbol{ H}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _2}$表示虚拟未建模动态项$ \hat v\left( k \right) $.

    $$ \begin{equation} \left\{ \begin{aligned} {{\boldsymbol{ \Phi}}} \left( k \right) =\;& \left[ {y\left( {k - 1} \right), \cdots ,y\left( {k - {n_A}} \right),} \right.\\ &u\left( {k - 1} \right), \cdots ,u\left( {k - {n_B} - 1} \right),\\ &{h_1}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right), \cdots ,{\left. {{h_L}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right]^\mathrm{T}}{\rm{ }}\\ {{\boldsymbol{ \theta}}} \left( k \right) =\;& \left[ {{{\boldsymbol{ \beta}}} _{_1}^k;{{\boldsymbol{ \beta}}} _{_2}^k} \right] = \left[ {\beta _{_{1,1}}^k, \cdots ,\beta _{_{1,{n_A} + {n_B} + 1}}^k,} \right.\\ &{\left. {\beta _{_{2,1}}^k, \cdots ,\beta _{_{2,L}}^k} \right]^\mathrm{T}} \end{aligned} \right.\ \end{equation} $$ (33)

    此时, 利用$k-1 $时刻的参数可得输出估计为

    $$ \begin{equation} \hat y\left( k \right) = {{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right){{\boldsymbol{ \theta}}} \left( k-1 \right)\ \end{equation} $$ (34)

    本文采用一种递推方式在线更新$ {\boldsymbol{\theta}} $, 并引入遗忘因子以平衡新、旧数据的作用, 具体方法为

    $$ \begin{equation} \left\{ \begin{aligned} &{{\boldsymbol{ \theta}}} \left( k \right) = {{\boldsymbol{ \theta}}} \left( {k - 1} \right) + {{{\boldsymbol{ K}}}^*}\left( k \right)\;\times\\&{\kern 32pt}\left[ {y\left( k \right) - } \right. \left. {{{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right){{\boldsymbol{ \theta}}}\left( {k - 1} \right)} \right]\\ &{{{\boldsymbol{ K}}}^*}\left( k \right) = {{\boldsymbol{ P}}}\left( {k - 1} \right){{\boldsymbol{ \Phi}}} \left( k \right)\;\times\\&{\kern 44pt}\left[ {\lambda + } \right. {\left. {{{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right){{\boldsymbol{ P}}}\left( {k - 1} \right){{\boldsymbol{ \Phi}}} \left( k \right)} \right]^{ - 1}}\\ &{{\boldsymbol{ P}}}\left( k \right) = \frac{1}{\lambda }{\left[ {{{\boldsymbol{ I}}} - {{{\boldsymbol{ K}}}^*}\left( k \right){{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right)} \right]^{ - 1}}{{\boldsymbol{ P}}}\left( {k - 1} \right) \end{aligned} \right.\ \end{equation} $$ (35)

    其中, $ {{{\boldsymbol{ K}}}^*}\left( {k} \right) $为卡尔曼增益, $ {{\boldsymbol{ P}}}\left( k \right) $为协方差矩阵, 参数初值$ {{\boldsymbol{ \theta}}} \left( 0 \right) $和协方差矩阵初值$ {{\boldsymbol{ P}}}\left( 0 \right) $通过离线数据求解. $ \lambda $为遗忘因子, 其最佳取值范围一般为0.95 ~ 0.99, 在本文中通过实验确定.

    根据式(24)和式(25), 可得控制律为

    $$ \begin{equation} \begin{split} H\left( {{z^{ - 1}}} \right)u\left( k \right) =\;& {G^k}\left( {{z^{ - 1}}} \right)e\left( k \right) - \\ & \frac{{H\left( {{z^{ - 1}}} \right)}}{{{{\hat B}^k}\left( {{z^{ - 1}}} \right)}}\hat v\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) \end{split}\ \end{equation} $$ (36)

    具体实施步骤如下:

    步骤 1. 收集离线数据, 构建模型的原始输入 ${{{\boldsymbol{ X}}}_v}\left( k \right) \;=\; \left[ {y\left( k \right),\; \cdots ,\;y\left( {k - {n_A} \;+ \;1} \right),\;u\left( k \right),\; \cdots } \right. ,$ ${\left. {u\left( {k - {n_B}} \right)} \right]^\mathrm{T}}$, 初始化SCN模型, 计算递推初值$ {{\boldsymbol{ \theta}}} \left( 0 \right) $和$ {{\boldsymbol{ P}}}\left( 0 \right) $, 由式(13) 计算直链部分输出权重.

    步骤 2. 设置残差容忍度构造增强节点, 建立候选“节点池”并计算$ \delta $选取最佳节点, 由式(17)求解其输出权重, 当残差不满足要求时, 继续构造增强节点; 当残差满足要求时, 执行步骤3.

    步骤 3. 根据网络输出权重计算线性模型参数估计值$ {\hat A} $、$ {\hat B} $和虚拟未建模动态项估计值$ {\hat v} $, 通过式(28)计算初始控制输入.

    步骤 4. 在线采集在线运行数据构造k时刻模型输入向量$ {{\boldsymbol{ \Phi}}} \left( k \right) $, 选取合适的遗忘因子$ \lambda $, 根据式(35)在线递推更新$ {{\boldsymbol{ \theta}}} \left( k \right) $.

    步骤 5. 若系统仍在运行, 则返回步骤3, 计算下一步控制输入.

    步骤 6. 若系统停止运行, 则终止采集在线运行数据, 停止计算下一步控制输入.

    以下是数据驱动非线性自适应控制系统的稳定性和收敛性分析.

    引理 1. 当控制系统满足如下条件时具有稳定性和收敛性.

    1)参数多项式$ A\left( {{z^{ - 1}}} \right) $, $ B\left( {{z^{ - 1}}} \right) $ 在紧集 $ \Omega $中变化;

    2)高阶非线性项$ v\left( {{{{\boldsymbol{ X}}}_v \left( k \right)} } \right) $全局有界, 即$ \left\| {v\left[ \cdot \right]} \right\| \le M $.

    证明. 采用类似于文献[18]的方法可得条件1)和条件2)成立, 不再赘述.

    引理 2. SCN模型具有如下性质:

    1) $\mathop {\lim }\nolimits_{L \to {L_0}} {\left\| {{e_L}} \right\|^2} < {\varepsilon _L}$, $ {L_0} $为增强节点总数, $ {\varepsilon _L} $为残差容忍度.

    2)$\left| {\hat v\left( k \right)} \right| \le \left\| {y - {{\boldsymbol{ X}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _1}} \right\| + \left\| {{\varepsilon _L}} \right\|$

    证明. 性质1)和性质2)由式(21)易证得.

    引理 3. 将SCN模型的两个组成部分式(32)和式(33)以及自适应组合控制律(36)应用到系统(31)时, 令$ e'\left( k \right) = y\left( k \right) - {{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right){{\boldsymbol{ \theta}}} \left( k \right) $, 系统的输入输出动态特性方程如下(式中省去了多项式$z^{-1}$):

    $$ \begin{equation} \begin{split} &\left[ {\begin{array}{*{20}{c}} \begin{array}{c} H{{\hat A}^k} + {{\hat B}^k}{G^k}- {\Pi _1} \end{array}& {{\Pi _2}}\\ {{\Pi _3}}& \begin{array}{c} H{{\hat A}^k} + {{\hat B}^k}{G^k}+ {\Pi _4} \end{array} \end{array}} \right] \left[ {\begin{array}{*{20}{c}} {y\left( k \right)}\\ {u\left( k \right)} \end{array}} \right] = \\ &\qquad\left[ {\begin{array}{*{20}{c}} {{{\hat B}^k}{G^k}}\\ {{{\hat A}^k}{G^k}} \end{array}} \right]{y_{sp}}\left( k \right) + \left[ {\begin{array}{*{20}{c}} H\\ { - {G^k}} \end{array}} \right]e'\left( k \right)\;- \\ &\qquad\left[ {\begin{array}{*{20}{c}} {H{{\hat B}^k}{K^k} - H}\\ {H{{\hat A}^k}{K^k} + {G^k}} \end{array}} \right]\hat v\left( k \right) \end{split}\ \end{equation} $$ (37)

    其中, $\left\{ \begin{align} &{\Pi _1} = H{{\hat A}^k} - H{{\hat A}^{k - 1}}\\ &{\Pi _2} = H{{\hat B}^k} - H{{\hat B}^{k - 1}}\\&{\Pi _3} = {{\hat A}^k}{G^k} - {{\hat A}^{k - 1}}{G^k}\\&{\Pi _4} = {{\hat B}^k}{G^k} - {{\hat B}^{k - 1}}{G^k} \end{align} \right.$

    证明. 由文献[24]易得动态特性方程成立.

    定理 1. 通过实验的方法选取合适的残差容忍度, 使得未建模估计满足 $\left| {\hat v\left( k \right)} \right| \le M \le \left\| {{{\boldsymbol{ Y}}} - {{\boldsymbol{ X}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _1}} \right\| + \left\| {{\varepsilon _L}} \right\|$. 在控制律(36)的作用下, 被控对象的输入输出一致有界, 即

    $$ \begin{equation} \left| {u\left( k \right)} \right| < \infty ,\left| {y\left( k \right)} \right| < \infty \ \end{equation} $$ (38)

    设定值$ {y_{sp}}(k) $与被控对象的输出值$ y(k) $之间的稳态误差$ e(k) $可满足

    $$ \begin{equation} \mathop {\lim }\limits_{k \to \infty } \left| {{y_{sp}}\left( k \right) - y\left( k \right)} \right| < \varepsilon \ \end{equation} $$ (39)

    其中, $ \varepsilon $表示稳态误差预设的上界值.

    证明. $ {e_0} $是实际值与线性模型部分的残差. 由式(21)可知$ \left\| {{e_L}} \right\|\left( {L = 0,1,2, \cdots ,{L_0}} \right) $是递减序列. 易证 $ \left| {\hat v\left( k \right)} \right| \le M,M = \left\| {{{\boldsymbol{ Y}}} - {{\boldsymbol{ X}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _1}} \right\| + \left\| {{\varepsilon _L}} \right\| $.

    根据文献[24]中的方法, 由式(37)、$ {y_{sp}}(k) $以及$ \hat y\left( k \right) $的有界性可知, 存在正常数$ {c_1} $, $ {c_2} $满足

    $$ \begin{equation} \left| {u\left( k \right)} \right| \le {c_1} + {c_2}\mathop {\max }\limits_{0 \le k' < k} \left| {\hat y\left( {k'} \right)} \right| \le {c_1} + {c_2}{\varepsilon _L} < \infty \ \end{equation} $$ (40)

    由式(30)和式(37)以及$ {y_{sp}}(k) $和$ \hat y\left( k \right) $有界性可知, 存在正常数$ {c_3} $, $ {c_4} $满足

    $$ \begin{equation} \left| {y\left( k \right)} \right| \le {c_3} + {c_4}\mathop {\max }\limits_{0 \le k' < k} \left| {\hat y\left( {k'} \right)} \right| \le {c_3} + {c_4}{\varepsilon _L} < \infty \ \end{equation} $$ (41)

    综上可知, 系统的输入$ u\left( k \right) $和输出$ y\left( k \right) $有界. 由式(37)可得, 当$ k \to \infty $时, 有

    $$ \begin{equation} \begin{split} \mathop {\lim }\limits_{k \to \infty } \left| {e\left( k \right)} \right| =\;& \mathop {\lim }\limits_{k \to \infty } \left| {{y_{sp}}\left( k \right) - y\left( k \right)} \right|=\\ &\mathop {\lim }\limits_{k \to \infty } \left| { \frac{1}{{{{\hat B}^k}{G^k}}}} \right|\left| {\left( {H{{\hat A}^k} \;+ } \right.} \right.\\ &\left. {{\rm{ }}\left. {{{\hat B}^k}{G^k}} \right)y\left( k \right) - {{\hat B}^k}{G^k}{y_{sp}}\left( k \right)} \right| \end{split}\ \end{equation} $$ (42)

    变换得

    $$ \begin{equation} \begin{split} \mathop {\lim }\limits_{k \to \infty } \left| {e\left( k \right)} \right| =& \mathop {\lim }\limits_{k \to \infty } \left| { \frac{1}{{{{\hat B}^k}{G^k}}}} \right|\Big| {He'\left( k \right) + } \\ &{\Pi _1}y\left( k \right) - {\Pi _2}u\left( k \right) - {\rm{ }}\\ & {\left[ {{{\hat B}^k}{K^k} - H} \right]} \Big|\hat v\left( k \right) \end{split}\ \end{equation} $$ (43)

    由式(25)得$ {\hat B^k}{K^k} - H = 0 $, 同时根据定义易知${\lim _{k \to \infty }}\left| {{\Pi _i}} \right| = 0,i = 1,2$, $ {\lim _{k \to \infty }}\left| {He'\left( k \right)} \right| = 0 $. 则由式(37)以及$ {y_{sp}}(k) $, $ y(k) $, $ u\left( k \right) $和$ \hat v\left( k \right) $的有界性可知, 存在任意小的正数$ {\varepsilon} $, 满足

    $$ \mathop {\lim }\limits_{k \to \infty } \left| {{y_{sp}}\left( k \right) - y\left( k \right)} \right| < \varepsilon $$

    为验证所提出算法的有效性, 采用本文方法与传统方法[17-18]进行数值仿真对比实验. 控制目标是使得系统输出$ y\left( t \right) $跟踪参考轨迹$w\left( t \right) = 14.5\;( 3 < t \le 150)$和$w\left( t \right) =14\;( 150 < t \le 300)$. 选用以下离散时间的非线性系统作为被控对象:

    $$ \begin{equation} \begin{split} y\left( {t + 1} \right) =\;& 1.66y\left( t \right) - 0.66y\left( {t - 1} \right)+ \\ &u\left( t \right) + 1.26u\left( {t - 1} \right) + \\ &0.02\sin \left( {0.5y\left( t \right)u\left( t \right) + } \right.\\&\left. {2y\left( {t - 1} \right)u\left( {t - 1} \right)} \right) \end{split}\ \end{equation} $$ (44)

    由式(4)可得, $ A\left( {{z^{ - 1}}} \right) = 1 - 1.66{z^{ - 1}} + 0.66{z^{ - 2}} $, $ B\left( {{z^{ - 1}}} \right) = 1 + 1.26{z^{ - 1}} $. 易知式(44)中系统的非线性项$ 0.02\mathrm{sin}\left( {0.5y\left( t \right)u\left( t \right) + 2y\left( {t - 1} \right)u\left( {t - 1} \right)} \right) $全局有界. 设计线性自适应控制器时, 离线选择$ P( {{z^{ - 1}}} ) = 0.8 $, $ Q\left( {{z^{ - 1}}} \right) = 0.15 $.

    式(44)的被控对象模型为二阶的SISO系统, 故输入节点数为4, 输出节点为1. 在[10, 20]的区间内随机产生2 100个输入值$ u $, 从中顺序构建2 000组SCN模型的输入、输出向量. 选取本文方法的候选节点池为$ {T^{\max}} = 10 $, 根据离线数据构建增强节点数为9. $ {T^{\max}} $选取时既要避免建模耗时太长, 亦要避免候选节点数不足导致建模过程不稳定.

    在线学习时引进遗忘因子可以平衡新、旧数据的作用. 选择不同的$ \lambda $值, 可以调整对历史数据的遗忘效果. SCN结构确定后通过实验试凑的方法选取合适的遗忘因子, 设置遗忘因子$ \lambda $时在0.96 ~ 0.99的范围内取值. 如图3所示, 当$ \lambda $取值为0.98时收敛速度最快.

    图 3  不同遗忘因子下的控制系统输出
    Fig. 3  Output of control system under different forgetting factors

    SCN与传统RVFLNN (Random vector functional-link neural network)[21]建模性能的对比如表1所示, 在本文的数值仿真中, SCN模型在增强节点的个数、离线建模时间以及模型在线估计误差上的表现均优于传统RVFLNN模型. 在设定模型残差后, 由于引入监督机制选取增强节点的最优化参数, 使得其能够利用更少的节点逼近非线性模型. 离线建模时间除了受到硬件的约束外, 还受到模型结构以及网络计算负担的影响. 虽然在每次计算循环中, 候选池节点的构建及最优化参数的选取增加了计算负担, 但是获取了更轻量的模型结构以减少建模的时间. 此外, 由于SCN模型的增强节点在监督机制下选取, 避免了冗余节点和无效节点的产生, 因此在线辨识非线性系统的过程中获取了更小的误差.

    表 1  模型性能对比
    Table 1  Performance comparison of models
    模型性能指标 增强节点个数 离线建模
    时间 (s)
    模型在线平均
    绝对误差
    传统RVFLNN模型 17 0.257 19 0.004 6
    SCN模型 9 0.245 82 0.001 3
    下载: 导出CSV 
    | 显示表格

    为验证本文方法的性能优势, 下面将对经典的线性模型、BP的交替辨识模型[17]、ANFIS的交替辨识模型[18]与本文SCN数据驱动模型的自适应控制方法进行对比, 控制系统的性能如图4 ~ 7所示. 表2对比了基于4种不同模型的自适应控制方法中模型估计性能的量化指标: 模型估计值的平均绝对误差(Mean absolute error, MAE).

    图 4  控制系统输出对比
    Fig. 4  Comparison of the output of the control system
    图 5  控制系统输入对比
    Fig. 5  Comparison of the input of the control system
    图 6  控制系统输出误差对比
    Fig. 6  Comparison of the output errors of the control systems
    图 7  非线性系统模型估计误差对比
    Fig. 7  Comparison of model estimation errors of nonlinear systems
    表 2  控制系统模型估计性能对比
    Table 2  Comparison of performance of model estimates for control systems
    基于不同模型的自适应控制系统 ${\rm MAE}$
    基于线性模型的自适应控制 0.009 2
    基于BP交替辨识模型的自适应控制 0.007 0
    基于ANFIS交替辨识模型的自适应控制 0.005 1
    基于SCN数据模型的自适应控制 0.001 3
    下载: 导出CSV 
    | 显示表格

    图4图6可见, 非线性控制输入引入了虚拟未建模动态项补偿, 稳态误差小于基于线性模型的自适应控制, 其中本文方法的控制输出收敛速度和稳态性能最好. 由图5可见, 基于交替辨识模型的控制输入幅值波动较大. 本文研究的是基于模型估计的自适应控制方法, 控制性能依赖于模型估计的性能. 经典的线性化模型丢失了非线性系统中的动态特性, 使得模型估计误差偏大. 而交替辨识模型利用非线性系统输出与线性化后的线性模型输出之间的误差(未建模动态项)设计非线性补偿控制律, 辨识过程交替进行, 其数值不稳定性会导致模型估计的误差限上升, 从而影响了控制性能. 与上述方法不同的是, 本文SCN数据驱动模型利用其直链与增强结构直接逼近非线性系统, 避免了交替辨识数值不稳定性和误差限上升的风险, 从而提高了控制性能.

    将所提方法应用在典型一段重介质选煤过程, 建立以重介质液密度为输入, 灰分含量为输出的控制回路, 重介质选煤过程的机理模型取于文献[25].

    实例描述如下: 重介质选煤过程的产品规格初始值取灰分含量为14%的低灰煤. 重介质悬浮液的初始密度$ u\left( 0 \right) = 1\,530\,\mathrm{kg}/{\mathrm{m}^3} $, 给煤量为$ 8\,\mathrm{kg}/\mathrm{s} $, 同时设定[−1, 1]的随机动态变化量. 令$ \lambda $为0.97, $ P( {{z^{ - 1}}} ) = 0.8 $, $ Q( {{z^{ - 1}}} ) = 0.2 $. 灰分含量初始设定值为14%, 20 min时将设定值调整为12%, 40 min时将设定值调整为13%.

    采用本文提出的自适应控制方法跟踪灰分含量设定值, 利用SCN数据驱动模型和量测所得输入输出过程信息, 在设定值突变的工况下提高感知被控对象系统时变特性的性能, 调整控制器参数以修正控制输入, 最终保持系统的性能指标接近期望的性能指标, 控制效果如图8图9所示.

    图 8  基于SCN数据模型的灰分含量跟踪控制输出
    Fig. 8  Output of ash content tracking control based on SCN data-driven model
    图 9  基于SCN数据模型的重介质选煤灰分含量估计误差曲线
    Fig. 9  Estimation error curve of ash content in dense medium separation process based on SCN data model

    图8可知, 在基于SCN数据驱动模型的直链部分通过在线辨识灰分含量控制系统参数设计的自适应控制器基础上, 又通过增强部分估计高阶未建模动态项对灰分含量控制系统中的非线性部分进行补偿, 尽管给煤量中设置了随机扰动, 但控制系统输出的误差能够控制在一定范围内. 且在20 min和40 min改变灰分含量的期望值时, 灰分含量控制系统的跟踪效果好, 稳态误差小.

    图9为采用SCN数据驱动模型估计的重介质选煤灰分含量$ \hat y $与实际y 之间的估计误差$ \Delta y $, 可以看到, 当灰分含量的期望值改变时, SCN模型对灰分含量输出的估计出现较大的偏差, 但在几个采样周期后, 通过网络的学习使得估计误差缩小到 ±0.05%以内, SCN数据驱动模型建立的灰分含量控制系统估计模型学习速度快、准确性高, 能够满足虚拟未建模动态补偿自适应控制器的设计要求.

    通过分析与实验结果得出以下结论: 针对难以建立精确模型的非线性离散动态系统, 1)本文采用增量学习方法与监督机制, 对模型结构与模型参数进行同步更新优化, 保证了SCN数据驱动模型的无限逼近能力; 2) 设计了具有直链与增强结构的SCN, 提出了在一个控制周期内对动态非线性系统的低阶线性模型和高阶非线性未建模动态同时辨识的建模方法, 提高了对非线性受控系统的辨识精度; 3) 结合一步超前最优控制策略、控制系统的输入、输出数据和数据驱动建模的结果, 实现了线性控制器和未建模动态补偿器参数的自学习过程. 综上, 本文对一类未知动态非线性系统在模型辨识和自适应控制方面具有实用性和一定的优越性. 未来将基于本文方法从如下方面开展相关工作: 1) 引入多模型自适应控制的思想, 利用本文方法对被控对象构建合适的模型集, 覆盖被控对象的不确定性, 以应对模型参数发生突变的情况; 2)将本文方法的应用领域扩展至多输入−多输出的实际应用背景.

  • 图  1  RMFS拣货区域布局图

    Fig.  1  RMFS picking area layout

    图  2  RMFS订单拣选作业流程

    Fig.  2  RMFS order picking process

    图  3  RMFS拣货优化流程

    Fig.  3  RMFS picking optimization process

    图  4  RMFS优化理论框架

    Fig.  4  RMFS optimization theory framework

    图  5  RMFS货位指派示意图

    Fig.  5  RMFS location assignment diagram

    图  6  RMFS订单分批示意图

    Fig.  6  RMFS order batching diagram

    图  7  RMFS的货架与机器人分配示意图

    Fig.  7  RMFS shelf and robot distribution diagram

    图  8  RMFS的路径规划示意图

    Fig.  8  RMFS path planning diagram

    图  9  RMFS绩效评估的半开放排队网络模型

    Fig.  9  Semi-open queueing network for performance estimation of RMFS

    图  10  RMFS路径规划及其图表示

    Fig.  10  RMFS path planning and its graph representation

    图  11  基于强化学习的RMFS优化框架

    Fig.  11  RMFS optimization framework based on Reinforcement Learning

    图  12  基于Agent的RMFS多机器人运作结构

    Fig.  12  Agent-based multi-robot operation structure of RMFS

    表  1  RMFS研究文献汇总

    Table  1  Summary of literature on RMFS

    问题分类作者研究问题解决方法
    货位指派Nigam 等[4] (2014)货架储位指派问题多类封闭排队网络
    Lamballais 等[3] (2017)仓库布局、商品储位指派、补货作业优化问题半开放排队网络
    Onal 等[15] (2017)商品储位指派问题爆炸存储策略、仿真方法
    Krenzler 等[16] (2018)货架储位再指派问题确定性模型、组合优化算法
    Yuan 等[17] (2019)货架储位指派问题流体模型、基于策略的存储方法
    Weidinger 等[18] (2018)货架储位动态指派混合整数规划模型、自适应规划方法
    Yuan 等[19] (2018)货位指派问题分区存储策略、仿真方法
    Xiang 等[20] (2018)商品储位指派问题与订单分批协同优化混合整数规划模型、可变邻域搜索方法、自适应算法
    蔺一帅等[21] (2020)商品储位指派与路径规划协同优化改进的协同优化遗传算法
    徐翔斌等[22] (2021)货架储位动态指派改进的模拟退火算法
    订单分批吴颖颖等[23] (2016)订单排序问题订单排序优化模型、k-means聚类算法
    Boysen 等[24] (2017)订单分批与订单排序以及货架在拣货
    站台排序的综合优化
    混合整数规划模型、Cplex以及仿真方法
    Xiang 等[20] (2018)商品储位指派问题与订单分批协同优化混合整数规划模型、可变邻域搜索方法、自适应算法
    任务分配及调度Zhou 等[11] (2020)多机器人任务分配问题平衡启发式机制与仿真
    Dou 等[25] (2020)任务调度和路径规划协同优化遗传算法、强化学习
    徐贤浩等[26] (2016)搬运机器人待命泊位策略问题统计建模方法、基于策略的方法
    Yuan 等[27] (2017)搬运机器人共享分配问题共享协议策略、排队网络
    Zou 等[28] (2017)RMFS分配规则问题半开放排队网络、基于规则的方法、
    邻域搜索方法
    Merschformann 等[12] (2018)RMFS作业调度决策问题基于行走策略的研究方法
    Merschformann 等[29] (2018)RMFS作业调度决策问题基于策略的存储和仿真方法
    Ghassemi 等[30] (2018)多机器人任务分配问题基于二部图匹配和模糊聚类的分散多主体任务分配算法、仿真
    Zou 等[31] (2018)评估机器人充电与更换电池策略的优劣半开放排队网络、Arena仿真
    袁瑞萍等[32] (2018)拣货过程任务调度共同进化遗传算法
    Roy 等[33] (2019)RMFS系统绩效评估、机器人分配策略封闭排队网络、两阶段随机模型、Arena仿真
    Yoshitake 等[34] (2019)机器人调度实时全息调度方法
    Zhang 等[35] (2020)RMFS多机器人分配问题改进的遗传算法
    路径规划沈博闻等[8] (2014)多机器人路径规划问题改进的A*算法
    Dou 等[25] (2020)任务调度和路径规划协同优化遗传算法、强化学习
    Kumar 等[36] (2018)RMFS路径规划问题无冲突路径规划算法
    Zhang 等[37] (2018)多机器人无冲突路径规划改进的Dijkstra算法、避碰规则
    张丹露等[38] (2018)多机器人协同路径规划改进的A*算法、动态加权图
    夏清松等[39] (2019)路径规划与作业避障协同研究蚁群算法、避障规则设计
    Lee 等[40] (2019)多机器人无冲突路径规划网络物理系统模型、改进的A*算法以及避碰规则
    于赫年等[41] (2020)多机器人路径规划问题自调优A*算法、主动避障规则
    蔺一帅等[21] (2020)商品储位指派与路径规划协同优化改进的协同优化遗传算法
    RMFS系统设计、评估及其他问题研究Gue 等[42] (2014)RMFS机器人系统控制与评估面向对象建模与仿真
    Yuan 等[43] (2016)评估RMFS的性能, 主要关注机器人
    数量、速度优化
    开放排队网络模型
    Lee 等[44] (2019)变形RMFS的拣货流程优化混合整数规划模型、Gurobi
    Bozer 等[45] (2018)RMFS系统与miniload系统对比仿真方法
    Wang 等[46] (2020)机器人搬运货架的运行周期问题旅行时间模型
    Zhang 等[47] (2019)RMFS快递分拣仓库布局自动化设计机器学习与进化计算组合的方法
    Petković 等[48] (2019)RMFS工作人员的意图评估隐马尔科夫模型和心理理论
    Wang 等[49] (2020)RMFS系统设计框架研究基于瓶颈的模型和开放排队网络模型
    下载: 导出CSV
  • [1] De Koster R, Le-Duc T, Roodbergen K J. Design and control of warehouse order picking: A literature review. European Journal of Operational Research, 2007, 182(2): 481-501 doi: 10.1016/j.ejor.2006.07.009
    [2] Guizzo E. Three engineers, hundreds of robots, one warehouse. IEEE Spectrum, 2008, 45(7): 26-34 doi: 10.1109/MSPEC.2008.4547508
    [3] Lamballais T, Roy D, De Koster M B M. Estimating performance in a robotic mobile fulfillment system. European Journal of Operational Research, 2017, 256(3): 976-990 doi: 10.1016/j.ejor.2016.06.063
    [4] Nigam S, Roy D, de Koster R, Adan I. Analysis of class-based storage strategies for the mobile shelf-based order pick system. In: 13th IMHRC Proceedings. Cincinnati, Ohio, USA, 2014
    [5] D'Andrea R. Guest editorial: A revolution in the warehouse: A retrospective on Kiva systems and the grand challenges ahead. IEEE Transactions on Automation Science & Engineering, 2012, 9(4): 638-639
    [6] Wurman P R, D'Andrea R, Mountz M. Coordinating hundreds of cooperative, autonomous vehicles in warehouses. AI Magazine, 2008, 29(1): 9-19
    [7] D′Andrea R, Wurman P. Future challenges of coordinating hundreds of autonomous vehicles in distribution facilities. In: Proceedings of the 2008 IEEE International Conference on Technologies for Practical Robot Applications. Woburn, MA, USA: IEEE, 2008. 80−83
    [8] 沈博闻, 于宁波, 刘景泰. 仓储物流机器人集群的智能调度和路径规划. 智能系统学报, 2014, 9(6): 659-664

    Shen Bo-Wen, Yu Ning-Bo, Liu Jing-Tai. Intelligent scheduling and path planning of warehouse mobile robots. CAAI Transactions on Intelligent Systems, 2014, 9(6): 659-664
    [9] Flipse M. Altering and Improving Kiva Some Suggestions for Improvement of the Current Kiva System, Marcel Flipse 1473379, Vrije Universiteit, Articial Intelligence Department, Amsterdam, Netherland, 2011.
    [10] Zhang J, Wang X P, Chan F T S, Ruan J H. On-line order batching and sequencing problem with multiple pickers: A hybrid rule-based algorithm. Applied Mathematical Modelling, 2017, 45: 271-284 doi: 10.1016/j.apm.2016.12.012
    [11] Zhou L W, Shi Y Y, Wang J L, Yang P. A balanced heuristic mechanism for multirobot task allocation of intelligent warehouses [Online], available: http://downloads.hindawi.com/journals/mpe/2014/380480.pdf, August 31, 2020
    [12] Merschformann M, Lin X, Erdmann D. Path planning for Robotic Mobile Fulfillment Systems [Online], available: https://arxiv.org/abs/1706.09347.pdf, November 19, 2018
    [13] 徐翔斌, 李秀. 自组织物流研究综述及前景展望. 包装工程, 2017, 38(11): 111-116

    Xu Xiang-Bin, Li Xiu. Research overview and prospects of self-organizing logistics. Packaging Engineering, 2017, 38(11): 111-116
    [14] Roodbergen K J, Vis I F A. A survey of literature on automated storage and retrieval systems. European Journal of Operational Research, 2009, 194(2): 343-362 doi: 10.1016/j.ejor.2008.01.038
    [15] Onal S, Zhang J R, Das S. Modelling and performance evaluation of explosive storage policies in internet fulfilment warehouses. International Journal of Production Research, 2017, 55(20): 5902-5915 doi: 10.1080/00207543.2017.1304663
    [16] Krenzler R, Xie L, Li H Y. Deterministic pod repositioning problem in robotic mobile fulfillment systems [Online], available: https://arxiv.org/pdf/1810.05514.pdf, October 9, 2018
    [17] Yuan R, Graves S C, Cezik T. Velocity-based storage assignment in semi-automated storage systems. Production and Operations Management, 2019, 28(2): 354-373 doi: 10.1111/poms.12925
    [18] Weidinger F, Boysen N, Briskorn D. Storage assignment with rack-moving mobile robots in KIVA warehouses. Transportation Science, 2018, 52(6): 1479-1495 doi: 10.1287/trsc.2018.0826
    [19] Yuan R, Cezik T, Graves S C. Stowage decisions in multi-zone storage systems. International Journal of Production Research, 2018, 56(1-2): 333-343 doi: 10.1080/00207543.2017.1398428
    [20] Xiang X, Liu C C, Miao L X. Storage assignment and order batching problem in Kiva mobile fulfilment system. Engineering Optimization, 2018, 50(11): 1941-1962 doi: 10.1080/0305215X.2017.1419346
    [21] 蔺一帅, 李青山, 陆鹏浩, 孙雨楠, 王亮, 王颖芝. 智能仓储货位规划与AGV路径规划协同优化算法. 软件学报, 2020, 31(9): 2770-2784

    Lin Yi-Shuai, Li Qing-Shan, Lu Peng-Hao, Sun Yu-Nan, Wang Liang, Wang Ying-Zhi. Shelf and AGV path coopeartive optimization algorithm used in intelligent warehousing. Journal of Software, 2020, 31(9): 2770-2784
    [22] 徐翔斌, 马中强. RMFS订单拣选系统动态货位再指派研究. 计算机集成制造系统, 2021, 27(4): 1146-1154

    Xu Xiang-Bin, Ma Zhong-Qiang. Dynamic location reassignment of RMFS order picking system. Computer Integrated Manufacturing Systems, 27(4): 1146-1154
    [23] 吴颖颖, 孟祥旭, 王艳艳, 胡金昌. “货到人”拣选系统订单排序优化. 机械工程学报, 2016, 52(4): 206-212 doi: 10.3901/JME.2016.04.206

    Wu Ying-Ying, Meng Xiang-Xu, Wang Yan-Yan, Hu Jin-Chang. Order sequence optimization for “part-to-picker” order picking system. Journal of Mechanical Engineering, 2016, 52(4): 206-212 doi: 10.3901/JME.2016.04.206
    [24] Boysen N, Briskorn D, Emde S. Parts-to-picker based order processing in a rack-moving mobile robots environment. European Journal of Operational Research, 2017, 262(2): 550-562 doi: 10.1016/j.ejor.2017.03.053
    [25] Dou J J, Chen C L, Yang P. Genetic scheduling and reinforcement learning in multirobot systems for intelligent warehouses [Online], available: http://downloads.hindawi.com/journals/mpe/2015/597956.pdf, August 31, 2020
    [26] 徐贤浩, 郭依, 邹碧攀. 基于最短取货时间的仓储机器人待命位策略研究. 工业工程与管理, 2016, 21(4): 35-42, 49 doi: 10.3969/j.issn.1007-5429.2016.04.006

    Xu Xian-Hao, Guo Yi, Zou Bi-Pan. Research on the dwell point policy for the warehouse robot based on minimum expected travel time. Industrial Engineering and Management, 2016, 21(4): 35-42, 49 doi: 10.3969/j.issn.1007-5429.2016.04.006
    [27] Yuan Z, Gong Y Y. Bot-in-time delivery for robotic mobile fulfillment systems. IEEE Transactions on Engineering Management, 2017, 64(1): 83-93 doi: 10.1109/TEM.2016.2634540
    [28] Zou B P, Gong Y M, Xu X H, Zhe Y. Assignment rules in robotic mobile fulfilment systems for online retailers. International Journal of Production Research, 2017, 55(20): 6175-6192 doi: 10.1080/00207543.2017.1331050
    [29] Merschformann M, Lamballais T, De Koster R, Suhl L. Decision rules for robotic mobile fulfillment systems [Online], available: https://arxiv.org/abs/1801.06703.pdf, January 20, 2018
    [30] Ghassemi P, Chowdhury S. Decentralized task allocation in multi-robot systems via bipartite graph matching augmented with fuzzy clustering. In: Proceedings of the ASME 2018 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference. Quebec City, Quebec, Canada: American Society of Mechanical Engineers Digital Collection, 2018.
    [31] Zou B P, Xu X H, Gong Y M, De Koster R. Evaluating battery charging and swapping strategies in a robotic mobile fulfillment system. European Journal of Operational Research, 2018, 267(2): 733-753 doi: 10.1016/j.ejor.2017.12.008
    [32] 袁瑞萍, 王慧玲, 孙利瑞, 李俊韬. 基于物流AGV的“货到人”订单拣选系统任务调度研究. 运筹与管理, 2018, 27(10): 133-138

    Yuan Rui-Ping, Wang Hui-Ling, Sun Li-Rui, Li Jun-Tao. Research on the task scheduling of “goods to picker”order picking system based on logistics AGV. Operations Research and Management Science, 2018, 27(10): 133-138
    [33] Roy D, Nigam S, De Koster R, Adan I, Resing J. Robot-storage zone assignment strategies in mobile fulfillment systems. Transportation Research Part E: Logistics and Transportation Review, 2019, 122: 119-142 doi: 10.1016/j.tre.2018.11.005
    [34] Yoshitake H, Kamoshida R, Nagashima Y. New automated guided vehicle system using real-time holonic scheduling for warehouse picking. IEEE Robotics and Automation Letters, 2019, 4(2): 1045-1052 doi: 10.1109/LRA.2019.2894001
    [35] Zhang J T, Yang F X, Weng X. A building-block-based genetic algorithm for solving the robots allocation problem in a robotic mobile fulfilment system [Online], available: http://downloads.hindawi.com/journals/mpe/2019/6153848.pdf, August 31, 2020
    [36] Kumar N V, Kumar C S. Development of collision free path planning algorithm for warehouse mobile robot. Procedia Computer Science, 2018, 133: 456-463 doi: 10.1016/j.procs.2018.07.056
    [37] Zhang Z, Guo Q, Chen J, Yuan P J. Collision-free route planning for multiple AGVs in an automated warehouse based on collision classification. IEEE Access, 2018, 6: 26022-26035 doi: 10.1109/ACCESS.2018.2819199
    [38] 张丹露, 孙小勇, 傅顺, 郑彬. 智能仓库中的多机器人协同路径规划方法. 计算机集成制造系统, 2018, 24(2): 410-418

    Zhang Dan-Lu, Sun Xiao-Yong, Fu Shun, Zheng Bin. Cooperative path planning in multi-robots for intelligent warehouse. Computer Integrated Manufacturing Systems, 2018, 24(2): 410-418
    [39] 夏清松, 唐秋华, 张利平. 多仓储机器人协同路径规划与作业避碰. 信息与控制, 2019, 48(1): 22-28, 34

    Xia Qing-Song, Tang Qiu-Hua, Zhang Li-Ping. Cooperative path planning and operation collision avoidance for multiple storage robots. Information and control, 2019, 48(1): 22-28, 34
    [40] Lee C K M, Lin B B, Ng K K H, Lv Y Q, Tai W C. Smart robotic mobile fulfillment system with dynamic conflict-free strategies considering cyber-physical integration. Advanced Engineering Informatics, 2019, 42: 100998 doi: 10.1016/j.aei.2019.100998
    [41] 于赫年, 白桦, 李超. 仓储式多AGV系统的路径规划研究及仿真. 计算机工程与应用, 2020, 56(2): 233-241 doi: 10.3778/j.issn.1002-8331.1904-0178

    Yu He-Nian, Bai Hua, Li Chao. Research and simulation on path planning of warehouse multi-AGV system. Computer Engineering and Applications, 2020, 56(2): 233-241 doi: 10.3778/j.issn.1002-8331.1904-0178
    [42] Gue K R, Furmans K, Seibold Z, Uludağ O. GridStore: A puzzle-based storage system with decentralized control. IEEE Transactions on Automation Science and Engineering, 2014, 11(2): 429-438 doi: 10.1109/TASE.2013.2278252
    [43] Yuan Z, Gong Y M. Improving the speed delivery for robotic warehouses. IFAC-PapersOnLine, 2016, 49(12): 1164-1168 doi: 10.1016/j.ifacol.2016.07.661
    [44] Lee H Y, Murray C C. Robotics in order picking: Evaluating warehouse layouts for pick, place, and transport vehicle routing systems. International Journal of Production Research, 2019, 57(18): 5821-5841 doi: 10.1080/00207543.2018.1552031
    [45] Bozer Y A, Aldarondo F J. A simulation-based comparison of two goods-to-person order picking systems in an online retail setting. International Journal of Production Research, 2018, 56(11): 3838-3858 doi: 10.1080/00207543.2018.1424364
    [46] Wang K, Yang Y M, Li R X. Travel time models for the rack-moving mobile robot system. International Journal of Production Research, 2020, 58(14): 4367-4385 doi: 10.1080/00207543.2019.1652778
    [47] Zhang H F, Guo Z L, Zhang W N, Cai H, Wang C, Yu Y, et al. Layout design for intelligent warehouse by evolution with fitness approximation. IEEE Access, 2019, 7: 166310-166317 doi: 10.1109/ACCESS.2019.2953486
    [48] Petković T, Puljiz D, Marković I, Hein B. Human intention estimation based on hidden markov model motion validation for safe flexible robotized warehouses. Robotics and Computer-Integrated Manufacturing, 2019, 57: 182-196 doi: 10.1016/j.rcim.2018.11.004
    [49] Wang W, Wu Y H, Zheng J, Chi C. A comprehensive framework for the design of modular robotic mobile fulfillment systems. IEEE Access, 2020, 8: 13259-13269 doi: 10.1109/ACCESS.2020.2966403
    [50] Öncan T. A survey of the generalized assignment problem and its applications. INFOR: Information Systems and Operational Research, 2007, 45(3): 123-141 doi: 10.3138/infor.45.3.123
    [51] 徐翔斌, 李秀. 固定路径下多阶段货位调整研究. 工业工程与管理, 2017, 22(5): 24-31

    Xu Xiang-Bin, Li Xiu. Research on route-based multi-staged storage location adjustment. Industrial Engineering and Management, 2017, 22(5): 24-31
    [52] Roodbergen K J, De Koster R. Routing order pickers in a warehouse with a middle aisle. European Journal of Operational Research, 2001, 133(1): 32-43 doi: 10.1016/S0377-2217(00)00177-6
    [53] Hausman W H, Schwarz L B, Graves S C. Optimal storage assignment in automatic warehousing systems. Management Science, 1976, 22(6): 629-638 doi: 10.1287/mnsc.22.6.629
    [54] Manzini R. Correlated storage assignment in an order picking system. International Journal of Industrial Engineering: Theory Applications & Practice, 2006, 13(4): 384-394
    [55] 李英德. 波次分区拣货时装箱与货位指派问题协同优化的模型与算法. 系统工程理论与实践, 2013, 33(5): 1269-1276 doi: 10.3969/j.issn.1000-6788.2013.05.023

    Li Ying-De. Model and algorithm for cartonization and slotting optimization simultaneously in wave-picking zone-based system. Systems Engineering - Theory & Practice, 2013, 33(5): 1269-1276 doi: 10.3969/j.issn.1000-6788.2013.05.023
    [56] Petersen C G, Schmenner R W. An evaluation of routing and volume-based storage policies in an order picking operation. Decision Sciences, 1999, 30(2): 481-501 doi: 10.1111/j.1540-5915.1999.tb01619.x
    [57] Caron F, Marchet G, Perego A. Routing policies and COI-based storage policies in picker-to-part systems. International Journal of Production Research, 1998, 36(3): 713-732 doi: 10.1080/002075498193651
    [58] 李建斌, 杨光耀, 陈峰. 零售业电子商务仓储中心货位指派问题研究. 工业工程与管理, 2013, 18(4): 102-108 doi: 10.3969/j.issn.1007-5429.2013.04.016

    Li Jian-Bin, Yang Guang-Yao, Chen Feng. Retail warehouse center storage location assignment research for E-commerce. Industrial Engineering and Management, 2013, 18(4): 102-108 doi: 10.3969/j.issn.1007-5429.2013.04.016
    [59] Wutthisirisart P, Noble J S, Chang C A. A two-phased heuristic for relation-based item location. Computers & Industrial Engineering, 2015, 82: 94-102
    [60] Li J X, Moghaddam M, Nof S Y. Dynamic storage assignment with product affinity and ABC classification--a case study. The International Journal of Advanced Manufacturing Technology, 2016, 84(9-12): 2179-2194 doi: 10.1007/s00170-015-7806-7
    [61] 李英德, 鲁建厦, 潘国强. 穿越策略下考虑相关性的货位优化方法. 浙江大学学报(工学版), 2012, 46(8): 1424-1430 doi: 10.3785/j.issn.1008-973X.2012.08.011

    Li Ying-De, Lu Jian-Sha, Pan Guo-Qiang. Slotting optimization based on SKUs correlations with serpentine routing policy. Journal of Zhejiang University (Engineering Science), 2012, 46(8): 1424-1430 doi: 10.3785/j.issn.1008-973X.2012.08.011
    [62] Ho S. Intentional Fragmentation for Material Storage [Ph. D. dissertation], Massachusetts Institute of Technology, USA, 2004
    [63] Grosse E H, Glock C H, Neumann W P. Human factors in order picking: A content analysis of the literature. International Journal of Production Research, 2017, 55(5): 1260-1276 doi: 10.1080/00207543.2016.1186296
    [64] Cai J W, Kuang X A, Song S H, Zhao Q L. Automated warehouse storage assignment policy based on storage frequency and workload balance. In: Proceedings of the 2016 International Conference on Logistics, Informatics and Service Sciences (LISS). Sydney, NSW, Australia: IEEE, 2016. 1−6
    [65] Matusiak M, De Koster R, Saarinen J. Utilizing individual picker skills to improve order batching in a warehouse. European Journal of Operational Research, 2017, 263(3): 888-899 doi: 10.1016/j.ejor.2017.05.002
    [66] Pan J C H, Shih P H, Wu M H. Storage assignment problem with travel distance and blocking considerations for a picker-to-part order picking system. Computers & Industrial Engineering, 2012, 62(2): 527-535
    [67] Bodnar P, Lysgaard J. A dynamic programming algorithm for the space allocation and aisle positioning problem. Journal of the Operational Research Society, 2014, 65(9): 1315-1324 doi: 10.1057/jors.2013.64
    [68] Yang P, Miao L X, Xue Z J, Ye B. Variable neighborhood search heuristic for storage location assignment and storage/retrieval scheduling under shared storage in multi-shuttle automated storage/retrieval systems. Transportation Research Part E: Logistics and Transportation Review, 2015, 79: 164-177 doi: 10.1016/j.tre.2015.04.009
    [69] Pang K W, Chan H L. Data mining-based algorithm for storage location assignment in a randomised warehouse. International Journal of Production Research, 2017, 55(14): 4035-4052 doi: 10.1080/00207543.2016.1244615
    [70] 冯乾, 乐美龙, 赵毅. 物料聚类分析下的仓库货位指派优化. 辽宁工程技术大学学报(自然科学版), 2015, 34(10): 1207-1212 doi: 10.11956/j.issn.1008-0562.2015.10.020

    Feng Qian, Le Mei-Long, Zhao Yi. Optimization of storage location assignment based on materials clustering analysis. Journal of Liaoning Technical University (Natural Science Edition), 2015, 34(10): 1207-1212 doi: 10.11956/j.issn.1008-0562.2015.10.020
    [71] Weidinger F, Boysen N. Scattered storage: How to distribute stock keeping units all around a mixed-shelves warehouse. Transportation Science, 2018, 52(6): 1412-1427 doi: 10.1287/trsc.2017.0779
    [72] Gademann N, Velde S. Order batching to minimize total travel time in a parallel-aisle warehouse. IIE Transactions, 2005, 37(1): 63-75 doi: 10.1080/07408170590516917
    [73] Ackerman K B. Practical Handbook of Warehousing. US: Springer, 1990.
    [74] 王旭坪, 张珺, 马骏. 考虑完成期限的电子商务在线订单分批模型及算法. 管理科学, 2014, 27(6): 103-113 doi: 10.3969/j.issn.1672-0334.2014.06.009

    Wang Xu-Ping, Zhang Jun, Ma Jun. E-commerce on-line order batching model and algorithm: Considering due time. Journal of Management Science, 2014, 27(6): 103-113 doi: 10.3969/j.issn.1672-0334.2014.06.009
    [75] Rouwenhorst B, Reuter B, Stockrahm V, Houtum G, Mantel R J, Zijm W. Warehouse design and control: Framework and literature review. European Journal of Operational Research, 2000, 122(3): 515-533
    [76] Menéndez B, Pardo E G, Alonso-Ayuso A, Molina E, Duarte A. Variable neighborhood search strategies for the order batching problem. Computers & Operations Research, 2017, 78: 500-512
    [77] Scholz A, Wäscher G. Order batching and picker routing in manual order picking systems: The benefits of integrated routing. Central European Journal of Operations Research, 2017, 25(2): 491-520 doi: 10.1007/s10100-017-0467-x
    [78] Chen M C, Wu H P. An association-based clustering approach to order batching considering customer demand patterns. Omega, 2005, 33(4): 333-343 doi: 10.1016/j.omega.2004.05.003
    [79] 李诗珍, 杜文宏. 基于聚类分析的订单分批拣货模型及启发式算法. 统计与决策, 2008(12): 53-56

    Li Shi-Zhen, Du Wen-Hong. Order batch picking model and heuristic algorithm based on cluster analysis. Statistics & Decision, 2008(12): 53-56 (查阅所有网上资料, 未找到对应的英文翻译, 请联系作者确认)
    [80] Henn S, Wäscher G. Tabu search heuristics for the order batching problem in manual order picking systems. European Journal of Operational Research, 2012, 222(3): 484-494 doi: 10.1016/j.ejor.2012.05.049
    [81] 马士华, 文坚. 基于时间延迟的订单分批策略研究. 工业工程与管理, 2004, 9(6): 1-4 doi: 10.3969/j.issn.1007-5429.2004.06.001

    Ma Shi-Hua, Wen Jian. The order batching strategies based on time postponement. Industrial Engineering and Management, 2004, 9(6): 1-4 doi: 10.3969/j.issn.1007-5429.2004.06.001
    [82] Zhang J, Wang X P, Huang K. Integrated on-line scheduling of order batching and delivery under B2C e-commerce. Computers & Industrial Engineering, 2016, 94: 280-289
    [83] Hong S, Johnson A L, Peters B A. Batch picking in narrow-aisle order picking systems with consideration for picker blocking. European Journal of Operational Research, 2012, 221(3): 557-570 doi: 10.1016/j.ejor.2012.03.045
    [84] Tsai C Y, Liou J J H, Huang T M. Using a multiple-GA method to solve the batch picking problem: Considering travel distance and order due time. International Journal of Production Research, 2008, 46(22): 6533-6555 doi: 10.1080/00207540701441947
    [85] Scholz A, Schubert D, Wäscher G. Order picking with multiple pickers and due dates-simultaneous solution of order batching, batch assignment and sequencing, and picker routing problems. European Journal of Operational Research, 2017, 263(2): 461-478 doi: 10.1016/j.ejor.2017.04.038
    [86] Yu M F, De Koster R B M. The impact of order batching and picking area zoning on order picking system performance. European Journal of Operational Research, 2009, 198(2): 480-490 doi: 10.1016/j.ejor.2008.09.011
    [87] Hur S, Lee Y H, Lim S Y, Lee M H. A performance estimation model for AS/RS by M/G/1 queuing system. Computers & Industrial Engineering, 2004, 46(2): 233-241
    [88] 王艳艳, 周以齐, 沈长鹏, 吴耀华. 一种两类“货到人”订单拣选系统的适用性选择方法. 机械工程学报, 2015, 51(4): 206-212 doi: 10.3901/JME.2015.04.206

    Wang Yan-Yan, Zhou Yi-Qi, Shen Chang-Peng, Wu Yao-Hua. Applicability selection method of two parts-to-picker order picking systems. Journal of Mechanical Engineering, 2015, 51(4): 206-212 doi: 10.3901/JME.2015.04.206
    [89] Al-Araidah O, Dalalah D, Al-Abdel Azeez M E, Khasawneh M T. A heuristic for clustering and picking small items considering safe reach of the order picker. European Journal of Industrial Engineering, 2017, 11(2): 256-269 doi: 10.1504/EJIE.2017.083256
    [90] Khamis A, Hussein A, Elmogy A. Multi-robot task allocation: A review of the state-of-the-art. Cooperative Robots and Sensor Networks 2015. Switzerland: Springer-Verlag, 2015. 31−51
    [91] 张嵛, 刘淑华. 多机器人任务分配的研究与进展. 智能系统学报, 2008, 3(2): 115-120

    Zhang Yu, Liu Shu-Hua. Survey of multi-robot task allocation. CAAI Transactions on Intelligent Systems, 2008, 3(2): 115-120
    [92] Ross G T, Zoltners A A. Weighted assignment models and their application. Management Science, 1979, 25(7): 683-696 doi: 10.1287/mnsc.25.7.683
    [93] 施展, 陈庆伟. 基于改进的多目标量子行为粒子群优化算法的多无人机协同任务分配. 南京理工大学学报, 2012, 36(6): 945-951

    Shi Zhan, Chen Qing-Wei. Cooperative task allocation for multiple UAVs based on improved multi-objective quantum-behaved particle swarm optimization algorithm. Journal of Nanjing University of Science and Technology, 2012, 36(6): 945-951
    [94] 孙博寒, 王浩, 方宝富, 凌兆龙, 林杰华. 基于自组织算法的情感机器人追捕任务分配. 机器人, 2017, 39(5): 680-687

    Sun Bo-Han, Wang Hao, Fang Bao-Fu, Ling Zhao-Long, Lin Jie-Hua. Task allocation in emotional robot pursuit based on self-organizing algorithm. Robot, 2017, 39(5): 680-687
    [95] Fang B F, Chen L, Wang H, Dai S L, Zhong Q B. Research on multirobot pursuit task allocation algorithm based on emotional cooperation factor. The Scientific World Journal, 2014, 2014: 864180
    [96] 柳林, 季秀才, 郑志强. 基于市场法及能力分类的多机器人任务分配方法. 机器人, 2006, 28(3): 337-343 doi: 10.3321/j.issn:1002-0446.2006.03.019

    Liu Lin, Ji Xiu-Cai, Zheng Zhi-Qiang. Multi-robot task allocation based on market and capability classification. Robot, 2006, 28(3): 337-343 doi: 10.3321/j.issn:1002-0446.2006.03.019
    [97] Irfan M, Farooq A. Auction-based task allocation scheme for dynamic coalition formations in limited robotic swarms with heterogeneous capabilities. In: Proceedings of the 2016 International Conference on Intelligent Systems Engineering (ICISE). Islamabad, Pakistan: IEEE, 2016. 210−215
    [98] 刘淑华, 张嵛, 吴洪岩, 刘杰. 基于群体智能的多机器人任务分配. 吉林大学学报(工学版), 2010, 40(1): 123-129

    Liu Shu-Hua, Zhang Yu, Wu Hong-Yan, Liu Jie. Multi-robot task allocation based on swarm intelligence. Journal of Jilin University (Engineering and Technology Edition), 2010, 40(1): 123-129
    [99] Gong J W, Qi J Y, Xiong G M, Chen H Y, Huang W N. A GA based combinatorial auction algorithm for multi-robot cooperative hunting. In: Proceedings of the 2007 International Conference on Computational Intelligence and Security (CIS 2007). Harbin, China: IEEE, 2007. 137−141
    [100] Janati F, Abdollahi F, Ghidary S S, Jannatifar M, Baltes J, Sadeghnejad S. Multi-robot task allocation using clustering method. Robot Intelligence Technology and Applications 4. Switzerland: Springer, 2017. 233−247
    [101] Farinelli A, Iocchi L, Nardi D. Distributed on-line dynamic task assignment for multi-robot patrolling. Autonomous Robots, 2017, 41(6): 1321-1345 doi: 10.1007/s10514-016-9579-8
    [102] 陈培友, 汪定伟. 组合拍卖竞胜标确定问题的混沌搜索算法. 管理科学学报, 2003, 6(5): 24-28 doi: 10.3321/j.issn:1007-9807.2003.05.005

    Chen Pei-You, Wang Ding-Wei. Chaotic search algorithm for winner determination in combinatorial auctions. Journal of Management Sciences in China, 2003, 6(5): 24-28 doi: 10.3321/j.issn:1007-9807.2003.05.005
    [103] Cavalcante R C, Noronha T F, Chaimowicz L. Improving combinatorial auctions for multi-robot exploration. In: Proceedings of the 16th International Conference on Advanced Robotics (ICAR). Montevideo, Uruguay: IEEE, 2013. 1−6
    [104] 马磊, 张文旭, 戴朝华. 多机器人系统强化学习研究综述. 西南交通大学学报, 2014, 49(6): 1032-1044 doi: 10.3969/j.issn.0258-2724.2014.06.015

    Ma Lei, Zhang Wen-Xu, Dai Chao-Hua. A review of developments in reinforcement learning for multi-robot systems. Journal of Southwest JiaoTong University, 2014, 49(6): 1032-1044 doi: 10.3969/j.issn.0258-2724.2014.06.015
    [105] Bektas T. The multiple traveling salesman problem: An overview of formulations and solution procedures. Omega, 2006, 34(3): 209-219 doi: 10.1016/j.omega.2004.10.004
    [106] Pandey A. Mobile robot navigation and obstacle avoidance techniques: A review. International Robotics & Automation Journal, 2017, 2(3): 00023
    [107] 成伟明, 唐振民, 赵春霞, 刘华军. 移动机器人路径规划中的图方法应用综述. 工程图学学报, 2008, 29(4): 6-14

    Cheng Wei-Ming, Tang Zhen-Min, Zhao Chun-Xia, Liu Hua-Jun. A survey of mobile robots path planning using geometric methods. Journal of Engineering Graphics, 2008, 29(4): 6-14
    [108] 王慧, 王光宇, 潘德文. 基于改进粒子群算法的移动机器人路径规划. 传感器与微系统, 2017, 36(5): 77-79

    Wang Hui, Wang Guang-Yu, Pan De-Wen. Mobile robot path planning based on modified particle swarm optimization algorithm. Transducer and Microsystem Technologies, 2017, 36(5): 77-79
    [109] Shen C E, He J. A hybrid path planning algorithm for indoor mobile robot using hierarchy reinforcement learning. International Journal of Control and Automation, 2016, 9(5): 351-362 doi: 10.14257/ijca.2016.9.5.34
    [110] 高翔, 苏青. 基于双层模糊逻辑的多机器人路径规划与避碰. 计算机技术与发展, 2014, 24(11): 79-82

    Gao Xiang, Su Qing. Multi-robot path planning and collision avoidance based on double fuzzy logic. Computer Technology and Development, 2014, 24(11): 79-82
    [111] 胡世亮, 席裕庚. 一种通用的移动机器人路径规划仿真系统. 系统仿真学报, 2004, 16(8): 1714-1716, 1720 doi: 10.3969/j.issn.1004-731X.2004.08.029

    Hu Shi-Liang, Xi Yu-Geng. A general-purpose moving robot path-planning simulation system. Journal of System Simulation, 2004, 16(8): 1714-1716, 1720 doi: 10.3969/j.issn.1004-731X.2004.08.029
    [112] Lu W R, McFarlane D, Giannikas V, Zhang Q. An algorithm for dynamic order-picking in warehouse operations. European Journal of Operational Research, 2016, 248(1): 107-122 doi: 10.1016/j.ejor.2015.06.074
    [113] 高志伟, 代学武, 郑志达. 基于运动控制和频域分析的移动机器人能耗最优轨迹规划. 自动化学报, 2020, 46(5): 934-945

    Gao Zhi-Wei, Dai Xue-Wu, Zheng Zhi-Da. Optimal energy consumption trajectory planning for mobile robot based on motion control and frequency domain analysis. Acta Automatica Sinica, 2020, 46(5): 934-945
    [114] 宋勇, 李贻斌, 栗春, 李彩虹. 基于神经网络的移动机器人路径规划方法. 系统工程与电子技术, 2008, 30(2): 316-319 doi: 10.3321/j.issn:1001-506X.2008.02.030

    Song Yong, Li Yi-Bin, Li Chun, Li Cai-Hong. Path planning methods of mobile robot based on neural network. Systems Engineering and Electronics, 2008, 30(2): 316-319 doi: 10.3321/j.issn:1001-506X.2008.02.030
    [115] 孙志军, 薛磊, 许阳明, 王正. 深度学习研究综述. 计算机应用研究, 2012, 29(8): 2806-2810 doi: 10.3969/j.issn.1001-3695.2012.08.002

    Sun Zhi-Jun, Xue Lei, Xu Yang-Ming, Wang Zheng. Overview of deep learning. Application Research of Computers, 2012, 29(8): 2806-2810 doi: 10.3969/j.issn.1001-3695.2012.08.002
    [116] Li H, Yang S X, Seto M L. Neural-network-based path planning for a multirobot system with moving obstacles. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2009, 39(4): 410-419 doi: 10.1109/TSMCC.2009.2020789
    [117] Zhu A, Yang S X. A neural network approach to dynamic task assignment of multirobots. IEEE Transactions on Neural Networks, 2006, 17(5): 1278-1287 doi: 10.1109/TNN.2006.875994
    [118] Heo Y J, Kim D, Lee W, Kim H, Park J, Chung W K. Collision detection for industrial collaborative robots: A deep learning approach. IEEE Robotics and Automation Letters, 2019, 4(2): 740-746 doi: 10.1109/LRA.2019.2893400
    [119] 徐翔斌, 李志鹏. 强化学习在运筹学的应用: 研究进展与展望. 运筹与管理, 2020, 29(5): 227-239

    Xu Xiang-Bin, Li Zhi-Peng. Research progress and prospects for application of reinforcement learning in operations research. Operations Research and Management Science, 2020, 29(5): 227-239
    [120] 刘丹, 曹建彤, 陈建名. 基于Agent建模的应用: 研究综述. 技术经济, 2014, 33(11): 96-102 doi: 10.3969/j.issn.1002-980X.2014.11.014

    Liu Dan, Cao Jian-Tong, Chen Jian-Ming. Application of agent-based modeling: Literature review. Technology Economics, 2014, 33(11): 96-102 doi: 10.3969/j.issn.1002-980X.2014.11.014
    [121] Green D G. Hierarchy, complexity and agent based models. Our Fragile World: Challenges and Opportunities for Sustainable Development. Pairs: UNESCO, 2010. 1273−1292
    [122] 陈仁际, 吴镇炜, 王韬, 董昌. 基于Agent的分布式多机器人系统建模及分析. 中国机械工程, 2001, 12(6): 667-671 doi: 10.3321/j.issn:1004-132X.2001.06.017

    Chen Ren-Ji, Wu Zhen-Wei, Wang Tao, Dong Chang. Modeling and analysis for agent-based distributed multiple robot system. China Mechanical Engineering, 2001, 12(6): 667-671 doi: 10.3321/j.issn:1004-132X.2001.06.017
    [123] 柏继云, 李士勇. 基于agent的蚁群觅食行为建模及在机器人路径规划问题中的应用. 计算机应用研究, 2014, 31(1): 47-50, 54 doi: 10.3969/j.issn.1001-3695.2014.01.010

    Bai Ji-Yun, Li Shi-Yong. Modeling of ant colony foraging behavior based on agent and application of model in robotic path planning. Application Research of Computers, 2014, 31(1): 47-50, 54 doi: 10.3969/j.issn.1001-3695.2014.01.010
    [124] Hazard C J, Wurman P R, D’Andrea R. Alphabet soup: A testbed for studying resource allocation in multi-vehicle systems. In: Proceedings of the 2006 AAAI Workshop on Auction Mechanisms for Robot Coordination. Boston, Massachusetts, USA: AAAI, 2006. 23−30
    [125] Merschformann M, Xie L, Li H Y. RAWSim-O: A simulation framework for robotic mobile fulfillment systems [Online], available: https://arxiv.org/pdf/1710.04726.pdf, October 12, 2017
    [126] Keung K L, Lee C K M, Ji P, Ng K K H. Cloud-based cyber-physical robotic mobile fulfillment systems: A case study of collision avoidance. IEEE Access, 2020, 8: 89318-89336 doi: 10.1109/ACCESS.2020.2992475
    [127] Azadeh K, De Koster R, Roy D. Robotized and automated warehouse systems: review and recent developments. Transportation Science, 2019, 53(4): 917-945 doi: 10.1287/trsc.2018.0873
    [128] 孙长银, 穆朝絮. 多智能体深度强化学习的若干关键科学问题. 自动化学报, 2020, 46(7): 1301-1312

    Sun Chang-Yin, Mu Chao-Xu. Important scientific problems of multi-agent deep reinforcement learning. Acta Automatica Sinica, 2020, 46(7): 1301-1312
    [129] 秦方博, 徐德. 机器人操作技能模型综述. 自动化学报, 2019, 45(8): 1401-1418

    Qin Fang-Bo, Xu De. Review of robot manipulation skill models. Acta Automatica Sinica, 2019, 45(8): 1401-1418
    [130] 曹风魁, 庄严, 闫飞, 杨奇峰, 王伟. 移动机器人长期自主环境适应研究进展和展望. 自动化学报, 2020, 46(2): 205-221

    Cao Feng-Kui, Zhuang Yan, Yan Fei, Yang Qi-Feng, Wang Wei. Long-term autonomous environment adaptation of mobile robots: State-of-the-art methods and prospects. Acta Automatica Sinica, 2020, 46(2): 205-221
  • 期刊类型引用(30)

    1. 李儒博,邓旭东,刘翱,任亮. RMFS补货货品存储分配问题. 控制与决策. 2025(02): 528-536 . 百度学术
    2. 张超. 汽车生产物流智能平台关键技术和实践研究. 物流科技. 2025(02): 54-59+70 . 百度学术
    3. 王亮,孙海燕. 采用卷积神经网络的室内可见光定位方法. 导航定位学报. 2025(01): 128-136 . 百度学术
    4. 朱博文,崔凤英. 融合多策略优化SSA的仓储机器人任务调度算法. 组合机床与自动化加工技术. 2024(05): 183-187+192 . 百度学术
    5. 何金涛,杨中华. 基于自适应交叉策略遗传算法的非空货位分配方案优化研究. 物流科技. 2024(10): 15-21 . 百度学术
    6. 司聪敏,王转. 不同跟随策略下RMFS调度问题研究. 计算机工程与应用. 2024(11): 356-366 . 百度学术
    7. 李腾,丁佩佩,张茹兰. 基于动态避障优先级与预测的多AGV无冲突路径规划. 系统工程. 2024(03): 50-62 . 百度学术
    8. 丁嘉伟. 面向簇化移动机器人的网络资源调度算法. 机床与液压. 2024(11): 47-52 . 百度学术
    9. 王军茹,张菂,孙广彬. 无人化仓库下异构机器人混合任务分配研究. 仪表技术与传感器. 2024(06): 53-60+78 . 百度学术
    10. 李儒博,邓旭东,刘翱,马云峰,任亮. 移动机器人订单拣选系统优化研究综述. 物流研究. 2024(04): 13-25 . 百度学术
    11. 吴忠秀,薛文珑,陈力. 一种物流配送机器人路径搜索启发式算法研究. 机械设计与制造. 2024(08): 312-317 . 百度学术
    12. 毕海婷,梁入文,付龙海. 基于深度学习的清洁机器人机械手操作运动规划研究. 长春工程学院学报(自然科学版). 2024(04): 84-91 . 百度学术
    13. 廉胤东,刘彦汝,杨启帆,杨奕斌,谢巍. 基于信息物理系统的多分拣移动机器人调度策略. 控制与决策. 2023(01): 281-288 . 百度学术
    14. 陈正升,王雪松,程玉虎,刘凯旋. 基于ROS的自主移动机器人路径规划虚实结合实验平台. 实验技术与管理. 2023(01): 77-82+100 . 百度学术
    15. 方磊,吉卫喜,彭威,冯晨. 动态储位分配策略下仓储作业能耗优化调度. 计算机工程与应用. 2023(04): 303-311 . 百度学术
    16. 胡晓,陈传军,刘利波,陈佳梁,翁迅. 基于运动学-反向可恢复A*算法的移动机器人拣货系统路径规划研究. 制造业自动化. 2023(02): 208-213 . 百度学术
    17. 谢正泰,樊佳亮,刘梅,金龙. 基于神经网络的机器人学习与控制:回顾与展望. 信息与控制. 2023(01): 37-58 . 百度学术
    18. 丁天蓉,张源凯,王玉英,胡祥培. 基于关联网络的“人-机”双拣选系统仓储商品选择方法. 中国管理科学. 2023(03): 26-37 . 百度学术
    19. 秦春林,石建刚,任帅. 枕簧智能组装机器人系统方案设计与分析. 机床与液压. 2023(07): 122-129 . 百度学术
    20. 刘宝临,邹汶材. 基于视觉定位的机器人智能拆垛系统. 计算机系统应用. 2023(07): 138-144 . 百度学术
    21. 张经天,胡晓,翁迅,马莹,于潇. 考虑动态任务耗时与播种墙容量的移动机器人拣货系统任务分配优化. 运筹与管理. 2023(06): 61-67 . 百度学术
    22. 张家豪. 基于Kitting的混流装配线物料配送研究. 中国储运. 2023(09): 122-124 . 百度学术
    23. 杨海兰,祁永强,荣丹. 仓储环境下基于忆阻强化学习的AGV路径规划. 计算机工程与应用. 2023(17): 318-327 . 百度学术
    24. 焦帅,刘翱,李儒博,任亮,彭琨琨. 基于改进萤火虫算法的移动机器人履行系统订单分批问题研究. 物流工程与管理. 2023(09): 60-63 . 百度学术
    25. 杨玮,杨思瑶,张子涵. 考虑冲突避免的多AGV路径规划研究. 包装工程. 2023(23): 181-190 . 百度学术
    26. 董博文,宋君,范玮嘉,孙嘉欣,刘沐涵. 基于智能体仿真的货到人拣选系统货架动态布局研究. 物流工程与管理. 2022(01): 53-55+75 . 百度学术
    27. 朱玉明. 浅析自动仓库货位调度策略. 机器人产业. 2022(03): 76-81 . 百度学术
    28. 郝杰,唐叶剑. 基于密度峰值聚类并行麻雀搜索算法的食品机器人路径规划. 食品与机械. 2022(06): 123-130 . 百度学术
    29. 李腾,丁佩佩,刘金芳. 货到人拣选系统多阶段可穿行多AGV路径规划. 系统仿真学报. 2022(07): 1512-1523 . 百度学术
    30. 孙阳君,赵宁. 多机器人存取系统动态调度方法. 计算机集成制造系统. 2022(07): 2213-2228 . 百度学术

    其他类型引用(37)

  • 加载中
图(12) / 表(1)
计量
  • 文章访问数:  3109
  • HTML全文浏览量:  1489
  • PDF下载量:  693
  • 被引次数: 67
出版历程
  • 收稿日期:  2019-10-21
  • 录用日期:  2020-08-27
  • 网络出版日期:  2022-01-25
  • 刊出日期:  2022-01-25

目录

/

返回文章
返回