-
摘要: 传统机器人经过长时间的研究和发展, 已经在生产和生活的多个领域得到了广泛的应用, 但在复杂多变的环境中依然缺乏与真实生物类似的灵活性、稳定性和适应能力. 类脑智能作为一种新型的机器智能, 使用计算建模的方法模拟生物神经系统的各类特性, 进而实现对各类信息的推理和决策, 近年来受到了学术界的广泛关注. 鉴于此, 综述了国内外面向机器人系统的类脑智能研究现状, 并对类脑智能方法在机器人感知、决策和控制三个研究方向的成果进行了整理、归纳和分析, 最后从软硬件层面分别指出了机器人类脑智能目前存在的主要问题和未来的发展方向.Abstract: After a long time of research and development, traditional robots have been widely used in many fields of production and life, but they still lack the flexibility, stability and adaptability similar to real organisms in complex and changing environments. As a new type of machine intelligence, brain-inspired intelligence uses computational modeling methods to simulate various characteristics of biological nervous systems and realize the reasoning and decision-making based on all kinds of information. In recent years, it has received extensive attention from the academic community. The main applications of brain-inspired intelligence methods in robot perception, decision-making and control problems are introduced. The related research results are analyzed and summarized. Finally, the main problems of software and hardware are pointed out and future development directions of robotic brain-inspired intelligence are proposed.
-
Key words:
- Robot /
- brain-inspired robot /
- brain-inspired intelligence /
- spiking neural network (SNN)
-
近年来, 机器人产业高速发展, 整体规模持续增长, 在制造业和服务业等众多领域都有广泛应用. 随着工业产品迭代速度日益增长, 个性化需要与日俱增, 传统依靠手工编程完成特定任务的方法难以适应新的需求. 因此, 迫切需要开发简单实用, 且可以灵活适用于多种任务的机器人技能学习方法.
机器人示教学习(Learning from demonstration, LfD)的灵感最初来源于人类的模仿学习, 近几年获得学术界和工业界的广泛关注[1–4]. 机器人通过观察用户演示来学习新技能, 同时将新技能泛化到不同场景下的相似任务中去, 一般包含演示、学习、复现三个阶段. 演示阶段需要解决的问题是如何向机器人进行技能演示, 常用的方法有视觉示教、动觉示教、遥操作示教和双臂示教. 学习阶段是对技能进行建模, 抽象的技能符号由示教数据具体表示, 然后利用示教数据训练模型参数. 复现阶段的性能主要体现在稳定性、复现精度、泛化能力和抗干扰性能4个方面.
动态系统(Dynamical system, DS)是对机器人技能进行建模的常用方法[5], 该方法将规划和执行集成到一起, 并将所有可能的解决方案嵌入到模型中以实现目标[6]. 在非线性DS基础上发展起来的动态运动原语只要进行一次演示就可以对运动进行建模[7], 动态运动原语描述的运动模型由非线性DS和线性DS组成, 其中非线性部分保证了轨迹复现的相似度, 线性部分则确保了模型全局稳定性, 两者的切换依靠相位变量平稳进行. 尽管动态运动原语提供了一种有效而精确的方法来对复杂的动态进行编码, 但是单变量编码丢失了各自由度之间的相关信息, 而且该方法本质上仍依赖于时间, 在面对时间扰动时需要用启发式方法重置相位变量[8].
为弥补动态运动原语的缺陷, 文献[9]提出了动态系统的稳定估计器(Stable estimator of dynamical systems, SEDS). 它首先利用高斯混合模型(Gaussian mixture models, GMM)和高斯混合回归(Gaussian mixture regression, GMR)的概率学习方法对轨迹进行初步拟合. 概率学习方法是轨迹编码中的常用方法, 它可以保留演示的固有可变性[10], 但是无法确保训练得到的动态系统具有全局稳定性. 因此SEDS在后续优化中加入了稳定性约束, 确保机器人在不受扰动的情况下能够到达目标点. 然而, 过于严格的稳定性约束可能会在学习过程中限制模型的精度. 针对SEDS方法中稳定性和精度难以平衡的问题, 文献[11]利用微分同胚变换改进了SEDS, 称作
$\tau $ -SEDS. 该方法在保证系统稳定性的同时, 很大程度上克服了模型的精度问题. 但是增加了模型复杂度, 导致学习更加耗时, 仅限于离线学习. DS方法的快速稳定学习[12]同时考虑了估计DS的稳定性、准确性和学习速度三个因素. DS方法快速稳定学习的快速学习能力在很大程度上方便了它的实际应用, 但在稳定性和准确性方面还不够优越. 文献[13]提出了一种基于流形浸没和淹没的学习方法来解决精度与稳定性的矛盾, 该方法保证了有效提取动力学特征和稳定形式的高精度, 而且能处理交叉运动的情形, 但模型复杂度较高.SEDS中另一个值得注意的问题是混合高斯分量个数的选取, 但是对于该问题的相关研究较少. 过多或者过少的分量个数选取都会导致模型无法有效提取演示的动力学特征, 因此该问题具有一定的研究价值. 通常用于确定有限混合模型的最佳分量的方法是贝叶斯信息准则[14], 然而这种模型选择方法存在一些明显的缺陷[15], 常常过高估计模型分量的个数, 导致过拟合. 贝叶斯非参数模型是一种定义在无限维参数空间上的贝叶斯模型, 其利用在适当数量的模型分量密度上产生后验分布来调整模型大小, 因此可以根据数据自适应聚类个数, 其中狄利克雷过程混合模型是最常用的贝叶斯非参数模型之一[16-18]. Figureoa等[19]提出了一种物理一致的贝叶斯非参数混合模型, 该方法可以自动估计最佳的混合分量个数, 并且将相似性测度融入先验信息, 提高了复现和泛化的精度. 但是该方法使用吉布斯采样计算模型的后验概率, 计算复杂度较高.
鉴于SEDS存在的上述缺陷, 本文提出了改进的SEDS (Improved SEDS, i-SEDS). 该方法有效地解决了SEDS中稳定性和精度无法兼顾的问题, 并且可以自动确定合适的分量个数. 仿真以及Franka-panda协作机器人的实验结果验证了本文方法的有效性和优越性. 本文的主要贡献有: 1)使用狄利克雷过程高斯混合模型(Dirichlet process GMM, DPGMM)代替GMM拟合演示, 并利用变分推断(Variational inference, VI)训练模型, 该模型可以根据演示数据自动确定合适的混合分量个数. 仿真分析超参数对DPGMM的影响, 为超参数的选择提供了指导意义; 2)采用参数化的李雅普诺夫函数修改了原SEDS中的稳定性约束条件, 从而提高了学习轨迹的精度, 解决了稳定性和精度难以兼顾的问题.
1. 问题描述
将机器人离散运动公式化为由自治动态系统驱动的控制律. 考虑一个状态变量
$\xi \in {{\mathbb{R}}^d}$ ,$\xi $ 通常表示笛卡尔空间中末端执行器的坐标. 有时$\xi $ 也可用于定义机器人系统的广义坐标(例如, 机械手的关节角度或轮式机器人的姿势)$$\dot \xi = f(\xi ),\;\;\;f:{{\mathbb{R}}^d} \mapsto {{\mathbb{R}}^d}$$ (1) 式中,
$f(\xi )$ 是一个非线性连续可微函数, 用于编码特定行为, 例如拾取搬运物品, 伸手拿杯子等. 从初始位置${\xi _0}$ 开始, 机器人运动${\xi _t},t \in [0, + \infty )$ 由式(1)积分得到, 运动最后收敛至单一吸引子${\xi ^*}$ ,$f({\xi ^*}) = 0$ . 本文需要估计该吸引子上全局渐近稳定的动态系统$f(\xi )$ .通常, 将基于一组M条演示轨迹的数据
$\left\{ {{\xi _{t,m}},{{\dot \xi }_{t,m}}} \right\}_{t = 0,m = 1}^{{T^m},M}$ 对$f(\xi )$ 进行估计,${T^m}$ 表示第$m$ 条演示轨迹的序列长度, 估计得到的DS为$\hat f(\xi )$ . 一般采用回归算法进行估计, 如高斯过程回归[20]、局部加权映射回归算法[21]和混合高斯回归等. 但这些标准的回归技术在训练过程中没有考虑DS的渐近稳定性,$\hat f(\xi )$ 很可能是不稳定的或收敛至伪吸引子. 因此SEDS方法将不稳定DS的建模转换为非线性优化问题, 构造了全局稳定的运动估计, 具体流程如图1所示.SEDS使用GMM-GMR回归方法从演示中估计初始DS. 首先利用具有
$K$ 个分量的GMM估计联合概率分布$p(\xi ,\dot \xi |\Theta ){\rm{ = }}\sum\nolimits_{k = 1}^K {{\pi _k}{\cal N}\left( {\xi ,\dot \xi |{\mu _k},{\Sigma _k}} \right)} $ , 其中${\pi _k}$ 、${\mu _k}$ 和${\Sigma _k}$ 分别是各高斯分量的权重、均值和协方差, 即${\Theta _k} = \{ {\pi _k},{\mu _k},{\Sigma _k}\} $ ,$\Theta = \{ {\Theta _1}, \cdots, {\Theta _K}\}$ , 然后GMR部分根据联合概率分布推导出后验概率$p(\dot \xi |\xi ,\Theta )$ , 对其取均值得到:$$\dot \xi = {\hat f_0}(\xi ) = \sum\limits_{k = 1}^K {{h_k}} (\xi )({A_k}\xi + {b_k})$$ (2) 式中,
${A_k} = \Sigma _k^{\dot \xi \xi }{\left( {\Sigma _k^\xi } \right)^{ - 1}},$ ${b_k} = \mu _k^{\dot \xi } - {A_k}\mu _k^\xi,$ ${h_k}\left( \xi \right) = {{{\pi _k}p\left( {\xi |k} \right)}}/{{\sum\nolimits_{i = 1}^K {{\pi _i}p\left( {\xi |i} \right)} }}$ .${A_k}\xi + {b_k}$ 表示第$k$ 个线性DS,${h_k}\left( \xi \right)$ 是状态相关的非线性系数,$\sum\nolimits_{k = 1}^K {{h_k}(\xi )} = 1$ , 且${h_k}(\xi ) > 0$ .上述方法有足够的灵活性来建模各种运动, 但是无法确保DS的渐近稳定性, 为此, SEDS给出了在保证系统稳定性下的参数学习方法, 即通过最小化带非线性项约束的目标函数来估计参数
$\Theta $ .$$\left\{ \begin{aligned} &{\min _\Theta }\;\;J(\Theta )\\ &{\rm{s}}.{\rm{t}}.\;\\ &\left\{ \begin{aligned} &{{A_k} + {{\left( {{A_k}} \right)}^{\rm{T}}} \prec 0,} \\ &{{b_k} = - {A_k}{\xi ^*,}} \end{aligned} \right.\;\;\;\;\forall \;k \in \{1, \cdots ,K\}\end{aligned}\right.$$ (3) 式中,
$ \prec 0$ 表示矩阵的负定,${\cal T} =\sum\nolimits_{m = 1}^M {{T^m}}$ 是全部训练数据的总数量. 目标函数$J(\Theta )$ 的选取有均方误差(Mean square error, MSE)和对数似然(Log likelihood, LL)两种.$$J(\Theta ) = \left\{ \begin{aligned} & - \frac{1}{{{\rm{2}}{\cal T}}}\sum\limits_{m = 1}^M \sum\limits_{t = 0}^{{T^m}} {{\left\| {{{\dot \xi }_{t,m}}{\rm{ - }}\hat f\left( {{\xi _{t,m}}} \right)} \right\|}^2,} &{\rm{MSE}} \\ & - \frac{1}{{\cal T}}\sum\limits_{m = 1}^M {\sum\limits_{t = 0}^{{T^m}} {\ln } } p\left( {{\xi _{t,m}},{{\dot \xi }_{t,m}}|\Theta } \right), &{\rm{LL}} \;\; \end{aligned} \right.$$ (4) 式中, 对数ln也可换成以其他常数为底的对数, 上式的约束是
$\hat f$ 全局稳定收敛的充分条件, 这些条件由Lyapunov第二稳定性方法推导得到, 见定理1.定理1. 如果存在径向无界且满足式(5)的Lyapunov函数
$V(\xi ):{{\mathbb{R}}^d} \mapsto {\mathbb{R}}$ , 则DS在${\xi ^*}$ 点处全局渐近稳定.$$ \left\{\begin{aligned} &\;V({\xi ^*}) = 0\\ &\;V(\xi ) > 0,\;\forall\; \xi \in {{\mathbb{R}}^d}\backslash \xi = {\xi ^*} \\ &\;\dot V({\xi ^*}) = 0\\ &\;\dot V(\xi ) < 0,\;\forall\; \xi \in {{\mathbb{R}}^d}\backslash \xi = {\xi ^*} \end{aligned}\right. $$ (5) SEDS方法可以有效地从演示中估计出具有全局渐近稳定性的DS, 是LfD领域中的常用方法, 但是该方法存在两个问题: 1)用于估计初始DS的GMM-GMR方法需要人工指定混合分量个数
$K$ , 当状态$\xi $ 维度升高或演示轨迹变得复杂时, 通过经验确定超参数$K$ 将变得很困难; 2)在SEDS中,$V(\xi )$ 是二次李雅普诺夫函数(Quadratic Lyapunov function, QLF), 即$V(\xi ) = {(\xi - {\xi ^*})^{\rm{T}}}(\xi - {\xi ^*})$ . 在几何学上, QLF只允许${L_2}$ 范数(即$ \Vert \xi -{\xi }^{*}{\Vert }_{2}$ )距离是单调递减的轨迹[11]. 这导致了SEDS在包含高曲率或非单调(暂时远离吸引子)的高度非线性运动中表现不佳, 不能同时保证稳定性和精度性.针对问题1), 本文利用贝叶斯非参数模型能根据数据自动确定最佳聚类个数的特性, 采用了DPGMM拟合演示数据, 并推导GMR估计初始DS; 针对问题2), 本文选择参数化QLF (Parametrized QLF, P-QLF)来确保估计DS的稳定性, 即
$V(\xi ) = {(\xi - {\xi ^*}){\rm ^T}}P(\xi - {\xi ^*})$ . 其中$P$ 的作用是将简单的QLF重塑为 “椭圆” 形式, 放松了约束条件, 从而能够精确复现不收缩(高曲率且朝向目标具有非单调性)的演示轨迹.2. DPGMM-GMR算法
DPGMM-GMR算法由DPGMM的建模过程、利用变分推断进行模型求解和推导GMR估计初始DS三部分组成.
2.1 狄利克雷过程高斯混合模型
狄利克雷过程(Dirichlet process, DP)一般用
$DP({G_0},\alpha )$ 表示, 其中${G_0}$ 是连续的基分布,$\alpha $ 是集中参数, 用来控制从DP中抽取的分布的离散化程度[22]. 假设从DP中随机抽取一个样本分布$G$ , 然后再从$G$ 中独立地抽取N个随机变量$\{ \theta _n^*\} _{n = 1}^N$ :$$\left\{ {\begin{aligned} &{G|\{ {G_0},\alpha \} \sim DP({G_0},\alpha )} \\ & {\theta _n^*|G\sim G,\;\;\; k = 1, \cdots ,N} \end{aligned}} \right.$$ (6) 折棍过程(Stick breaking process, SBP)通常用于建模和推断DP[23]. 给定两个无限随机变量
${{v}} = \{ {v_k}\} _{k = 1}^\infty$ 和$\{ \theta _k^*\} _{k = 1}^\infty $ , 其中${v_k}$ 服从Beta分布, 即${v_k} \sim {\rm{Beta}}(1,\alpha )$ , 则SBP可以表示为:$$G = \sum\limits_{k = 1}^\infty {{\pi _k}} ({{v}}){\delta _{{\theta _k}}}$$ (7) 式中,
${\pi _k}\left( {\boldsymbol{v}} \right) = {v_k}\prod\nolimits_{i = 1}^{k - 1} {(1 - {v_i})}$ ,$\sum\nolimits_{k=1}^\infty {{\pi _{k}}} \left( {{v}} \right) = 1$ .通过SBP, 可以将独立于
${G_0}$ 绘制的原子${\theta _k}$ 视为混合模型分量的分布参数, 该模型包含无限数量的分量, 并且每个分量的权重为${\pi _k}({{v}})$ , 从而建立了狄利克雷过程混合模型.为了便于表述, 将全部演示数据表示为
${{X}} = \{ {\xi _t},{\dot \xi _t}\} _{t = 1}^{\cal T}$ , 其中${x_t} = \{ {\xi _t},{\dot \xi _t}\} $ . 假设每个观测值${{{x}}_t}$ 都对应一个参数$\theta _t^*$ , 服从概率密度$p({{{x}}_t}|\theta _t^*)$ . 整个参数集$\{ \theta _t^*\} _{t = 1}^{\cal T}$ 服从一个共同的DP先验, 由于分布G是离散的, 因此$\{ \theta _t^*\} _{t = 1}^{\cal T}$ 可以划分到相同簇内, 以${\pi _k}({{v}})$ 的概率共享相同的${\theta _k}$ . 然后引入指示变量${{Z}} = \{ {{{z}}_t}\} _{t = 1}^{\cal T}$ , 也称作隐变量. 对于每个观测${{{x}}_t}$ , 都对应一个指示变量${{{z}}_t}$ , 用来指示数据${{{x}}_t}$ 所属分量. 因此狄利克雷过程混合模型满足下式概率分布:$$\left\{ { \begin{aligned} & {\;{v_k}|\alpha \sim {\rm{Beta}}\left( {{\rm{1}},\alpha } \right)} \\ & {\;{\theta _k}|{G_0}\sim {G_0}} \\ & {\;{{{z}}_t}|\pi \left( {\boldsymbol{v}} \right)\sim {\rm{Cat}}\left( {\pi \left( {{v}} \right)} \right)} \\ & {\;{{{x}}_t}|{{{z}}_{tk}} = 1\sim p({{{x}}_t}|{\theta _k})} \end{aligned}} \right.$$ (8) 式中,
${\rm{Cat}}\;( \cdot )$ 表示分类分布.在狄利克雷过程混合模型的基础上明确定义基分布
${G_0}$ 为Normal-Wishart分布, 即${\theta _k}\sim {\cal N}{\cal I}{\cal W}({\theta _0})$ , 就得到了DPGMM, 这意味着每个高斯分量的均值和精度都服从一个独立的Normal-Wishart分布, 根据式(8), DPGMM的公式化表示如下:$$\left\{ { \begin{aligned} &\;{p({{v}}|\alpha ) = \prod\limits_{k = 1}^\infty {{\rm{Beta}}\left( {{v_k}|{\rm{1}},\alpha } \right)} } \\ &\begin{array}{l} p(\mu ,\Lambda ) = \displaystyle\prod\limits_{k = 1}^\infty {{\cal N}({\mu _k}|{{{m}}_0},{{({\beta _0}{\Lambda _k})}^{ - 1}})} \times\\ \;\;\;\;\;\;\;\;\;\;\;\;\quad \qquad {\cal W}({\Lambda _k}|{{{W}}_0},{\nu _0}) \end{array} \end{aligned}} \right.$$ (9) $$\left\{ { \begin{aligned} &{p({{Z}}|{{v}}) = \prod\limits_{t = 1}^{\cal T} {\prod\limits_{k = 1}^\infty {{{\left( {{v_k}\prod\limits_{i = 1}^{k - 1} {(1 - {v_i})} } \right)}^{{z_{tk}}}}} } } \\ &{p({{X}}|{{Z}},\mu ,\Lambda ) = \prod\limits_{t = 1}^{\cal T} {\prod\limits_{k = 1}^\infty {\cal N} } {{({{{x}}_n}|{\mu _k},\Lambda _k^{ - 1})}^{{z_{tk}}}}} \end{aligned}} \right.$$ (10) 式中,
${\mu _k}和{\Lambda _k}$ 分别表示第$k$ 个高斯分量的均值和精度,${{{m}}_0}和{\beta _0}$ 分别是${\mu _k}$ 的高斯先验的均值和方差,${{{W}}_0}和{\nu _0}$ 分别是${\Lambda _k}$ 的Wishart先验的精度矩阵和自由度.式(9)是给定的共轭先验分布, 式(10)是模型的似然函数. DPGMM的概率结构如图2所示. 然而在无限维的设定下, 实际中模型不易处理. 因此本文采用一种常见的策略, 即基于DP的截断SBP[24]. 预定义最大的混合分量数
$\hat K$ , 并且令$q({v_{\hat K}} = 1) = 1$ . 即对于所有$k > \hat K$ ,${\pi _k}({{v}})$ 等于零.2.2 变分推断
第2.1节已为所有随机变量明确定义了共轭先验和模型的似然函数, 本节采用变分贝叶斯方法得出参数可靠的后验分布. 将隐变量和未知参数表示为
$\Theta = \{ {{v}},{{Z}},\mu ,\Lambda \}$ , 超参数表示为$\Xi = \{ \alpha ,{{{m}}_0},{\beta _0}, {{{W}}_0},{\nu _0}\}$ . 由于实际后验$p(\Theta |{{X}},\Xi )$ 难以计算, 因此变分推断方法引入任意分布$q(\Theta )$ 以逼近$p(\Theta |\Xi ,{{X}})$ . 在此假设下, 导出模型的对数似然值$\ln p({{X}})$ , 即:$$\ln p({{X}}) = {\cal L}(q) + KL(q||p)$$ (11) 其中
$${\cal L}(q) = \int q (\Theta ){\rm ln}\frac{{p({{X}},\Theta |\Xi )}}{{q(\Theta )}}{\rm{d}}\Theta $$ (12) $KL(q||p)$ 表示变分后验$q(\Theta )$ 和实际后验$p(\Theta |{{X}}, \Xi )$ 之间的KL(Kullback-Leibler)散度, 刻画了两个分布之间的相似程度. 为降低求解难度, 一般采用平均场理论限制概率分布$q(\Theta )$ 的范围, 然后寻找这个类别中使得KL散度最小化的概率分布[25]. 因此需要将$q(\Theta )$ 分解为:$$q(\Theta ) = \prod\limits_{k = 1}^{\hat K} q ({v_k})\prod\limits_{k = 1}^{\hat K} q ({\mu _k},{\Lambda _k})\prod\limits_{t = 1}^{\cal T} q ({z_t})$$ (13) 同时, 考虑DPGMM的共轭先验配置, 根据共轭的定义, 期望后验
$q(\Theta )$ 与先验$p(\Theta )$ 具有相同的函数形式[26], 可得:$$\left\{ { \begin{aligned} &\;\;{q({v_k}) = {\rm{Beta}}\left( {{v_k}|\alpha } \right)} \\ &\begin{array}{l} q({\mu _k},{\Lambda _k}) = {\cal N}({\mu _k}|{{{m}}_k},{({\beta _k}{\Lambda _k})^{ - 1}})\times \\ \;\;\;\;\;\;\;\;\;\; \;\qquad{\cal W}({\Lambda _k}|{{{W}}_k},{\nu _k}) \\ \end{array} \end{aligned}} \right.$$ (14) 指示变量
${{{z}}_t}$ 满足[27]:$$\begin{split} q\left( {{z_{tk}} = 1} \right) \propto& \exp \bigg\{ \displaystyle\sum\limits_i^{k - 1} {\left\langle {\ln \left( {1 - {v_i}} \right)} \right\rangle } + \left\langle {\ln {v_k}} \right\rangle +\\ & \frac{1}{2}\left\langle {\ln \left| {{\Lambda _k}} \right|} \right\rangle - \frac{D}{2}\ln 2\pi -\\ & \frac{1}{2}\left\langle {\left( {{x_t} - {\mu _k}} \right){\Lambda _k}{{\left( {{x_t} - {\mu _k}} \right)}{\rm ^T}}} \right\rangle \bigg\} \end{split} $$ (15) 式中,
$\langle \cdot \rangle $ 表示数学期望.采用变分贝叶斯期望最大化(Expectation maximization, EM)算法. 对该模型参数进行迭代求解. 该算法类似于EM算法, 在E步中, 计算指示变量的期望; 在M步中, 该期望值用于重新计算其他参数的变分分布.
期望通过变分推断得到DPGMM模型参数的后验分布后, 可以得到如下的模型联合概率密度:
$$p({\xi _t},{\dot \xi _t}) = \sum\limits_{k = 1}^{\hat K} {\langle {\pi _k}({{v}})\rangle {\rm{St}}({\xi _t},\mathop {{\xi _t}}\limits^. |{{{m}}_k},{{{{{R}}}}_k},{\nu _k} + 1 - D)} $$ (16) 式中,
${\rm{St}}( \cdot )$ 是学生$t$ 分布, 各分布的权重${\pi _k}({{v}})$ 按下式计算:$$\langle {\pi _k}({{v}})\rangle = \langle {v_k}\rangle \prod\limits_{i = 1}^{k - 1} {(1 - \langle } {v_i}\rangle )$$ (17) 式中,
$\langle {v_k}\rangle = \;{1 / {\left( {1 + \alpha } \right)}}$ .2.3 GMR估计初始DS
与基于GMM的GMR一样, 先对式(16)的DPGMM中的均值和方差进行划分.
$${{{m}}_k} = \left[ {\begin{array}{*{20}{c}} {m_k^\xi } \\ {m_k^{\dot \xi }} \end{array}} \right],\;\;\; {R_k} = \left[ {\begin{array}{*{20}{c}} {R_k^\xi }&{R_k^{\xi \dot \xi }} \\ {R_k^{\dot \xi \xi }}&{R_k^{\dot \xi }} \end{array}} \right]$$ (18) 给定输入位置
${\xi _t}$ 下输出速度${\dot \xi _t}$ 的条件概率分布为:$$p({\xi _t}|{\dot \xi _t},{{X}})\sim {\rm{St}}\left(\sum\limits_{k = 1}^{\hat K} {\langle {\pi _k}({{v}})\rangle } {{{\hat {{{m}}}}}_k},\sum\limits_{k = 1}^{\hat K} {\langle {\pi _k}({{v}})\rangle } {{{ \hat R}}_k},{\hat \nu _k}\right)$$ (19) 其中
$$\;\qquad\left\{ {\begin{aligned} & {{{{\hat {{m}}}}}_k} = {{m}}_k^{\dot \xi } + {{R}}_k^{\dot \xi \xi }{{({{R}}_k^\xi )}^{ - 1}}(\xi - {{m}}_k^\xi )\quad\qquad&(20{\rm{a}}) \\ &{{{{\hat R}}}_k} = {{R}}_k^{\dot \xi } - {{R}}_k^{\dot \xi \xi }{{({{R}}_k^\xi )}^{ - 1}}{{R}}_k^{\xi \dot \xi }\qquad\quad &(20{\rm{b}})\\ &{{\hat \nu }_k} = {\nu _k} + 1 - D\quad\qquad&(20{\rm{c}}) \end{aligned}} \right.$$ 然后将
${\dot \xi _t}$ 的条件概率期望作为预测值:$$\hat {\dot \xi} = \langle \dot \xi |\xi ,{{X}}\rangle = \sum\limits_{k = 1}^{\hat K} {\langle {\pi _k}({{v}})\rangle } {{{\hat {{m}}}}_k}$$ (21) DPGMM在拟合演示轨迹时, 自动确定最佳分量个数
$K$ , 其余不相关高斯分量权重趋向于0, 因此可以丢弃$\langle {\pi _k}({{v}})\rangle$ 值过低的高斯分量来简化计算. 同时将式(20a)代入式(21)得到动态系统估计.$$\begin{split} {{\hat f}_0}(\xi )=\;& \displaystyle\sum\limits_{k = 1}^{\hat K} {\langle {\pi _k}({{v}})\rangle } {{{{\hat {{m}}}}}_k} \approx \\ & \displaystyle\sum\limits_{k = 1}^K {\langle {\pi _k}({{v}})\rangle } {{{{\hat {{m}}}}}_k} = \displaystyle\sum\limits_{k = 1}^K {{h_k}\left( \xi \right)({A_k}} \xi + {b_k})) \end{split} $$ (22) 式中,
${A_k} = {{R}}_k^{\dot \xi \xi }{( {{{R}}_k^\xi } )^{- 1}}$ .${b_k} = {{m}}_k^{\dot \xi } - {A_k}{{m}}_k^\xi$ ,${h_k}( \xi ) =$ $\langle {\pi _k}({{v}})\rangle.$ 3. 基于P-QLF的稳定DS估计
第2节利用DPGMM-GMR从演示中估计初始动态系统
${\hat f_0}$ , 同其他的回归算法一样, 训练得到的${\hat f_0}$ 不具有全局稳定性. SEDS方法针对该问题构造了具有稳定性约束的非线性规划问题, 如式(3)所示. 其不等式约束${A_k} + {\left( {{A_k}} \right){\rm ^T}} \prec 0$ 通过QLF推导得到, 作为DS稳定收敛的充分条件, 该约束过于严格, 导致学习的DS为了确保稳定性而使生成的轨迹偏离了演示, 尤其是面对不收缩(高曲率且朝向目标具有非单调性)的演示轨迹. 本节使用P-QLF代替QLF进行稳定性约束的推导, 从而解决SEDS中存在的稳定性和精度无法平衡的问题.P-QLF通常用于确保线性时不变(Linear time- invariant, LTI)系统的稳定性, 如命题1所述.
命题1. 形式为
$\dot \xi = A\xi + b$ 的线性DS在吸引子${\xi ^*}$ 处全局渐近收敛, 当且仅当:$$\;\left\{ {\begin{array}{*{20}{l}} {\;{A{\rm ^T}}P + PA \prec 0,\;P = {P{\rm ^T}} \succ 0} \\ {\;b = - A{\xi ^*}} \end{array}} \right.\;$$ (23) 证明. 见文献[19].
命题1易扩展到式(22)表示的线性参数可变系统中, 即
${A_k}$ 为LTI参数, 混合系数${h_k}\left( \xi \right)$ 是状态相关的时变参数. 如命题2所述.命题2. 式(22)中定义的非线性DS在吸引子
${\xi ^*}$ 处全局渐近收敛, 当且仅当$$\;\left\{ {\begin{array}{*{20}{l}} {{\rm{ (}}{A_k}{){^{\rm{T}}}}P + P{A_k} \prec 0}, \\ {\;{b_k} = - {A_k}{\xi ^*},} \end{array}} \right.\;\forall\; k =\{ 1, \cdots ,K\}$$ (24) 式中,
$P$ 为对称正定矩阵.证明. 如果存在连续且可微的李雅普诺夫函数
$V(\xi )$ 满足定理1, 即可证明命题2. 通过考虑以下形式的P-QLF候选函数:$$V(\xi ) = {(\xi - {\xi ^*}){\rm ^T}}P(\xi - {\xi ^*})$$ (25) 由于其二次形式, 可以确保
$V(\xi ) > 0$ , 第2个条件是取$V(\xi )$ 的时间导数:$$\begin{split} \dot V(\xi ) =& {\left( {(\xi - {\xi ^*}} \right)\rm ^T}Pf(\xi ) + f{\rm ^T(\xi )}P\left( {\xi - {\xi ^*}} \right)= \\ & {\left( {\xi - {\xi ^*}} \right)\rm ^T}P\underbrace {\left(\sum\limits_{k = 1}^K {{h_k}} (\xi )\left( {{A_k}\xi + {b_k}} \right)\right)}_{{\rm{via }}\;(24)}\\ & \underbrace {\left(\sum\limits_{k = 1}^K {{h_k}} (\xi ){{\left( {{A_k}\xi + {b_k}} \right)}\rm ^T}\right)}_{{\rm{via }}\;(24)}P\left( {\xi - {\xi ^*}} \right) =\\ & {\left( {\xi - {\xi ^*}} \right)\rm ^T}P\left(\sum\limits_{k = 1}^K {{h_k}} (\xi )({A_k}\xi - \mathop {{A_k}{\xi ^*}}\limits_{{\rm{via }}\;\left( {24} \right)} )\right)+\\ & \left(\sum\limits_{k = 1}^K {{h_k}} (\xi ){({A_k}\xi - {A_k}{\xi ^*})\rm ^T}\right)P\left( {\xi - {\xi ^*}} \right)= \\ & {\left( {\xi - {\xi ^*}} \right)\rm ^T}P\left(\sum\limits_{k = 1}^K {{h_k}} (\xi ){A_k}\right)\left( {\xi - {\xi ^*}} \right) + \end{split} $$ $$\begin{split} & \qquad{\left( {\xi - {\xi ^*}} \right)\rm ^T}\left(\sum\limits_{k = 1}^K {{h_k}} (\xi ){({A_k})\rm ^T}\right)P\left( {\xi - {\xi ^*}} \right) =\\ &\qquad {\left( {\xi - {\xi ^*}} \right)\rm ^T}\left(\sum\limits_{k = 1}^K {\mathop {{h_k}(\xi )}\limits_{ > 0} } \underbrace {\left( {P{A_k} + {{\left( {{A_k}} \right)}^{\rm T}}P} \right)}_{ \prec \;0\;{\rm{ via }}\;(24)}\right)\\ &\qquad\left( {\xi - {\xi ^*}} \right) < 0 \end{split} $$ (26) 将
$\xi = {\xi ^*}$ 代入式(25)和(26), 可以确保$V({\xi ^*}) = 0$ ,$\dot V({\xi ^*}) = 0$ . 因此, 如果满足条件(24), 则式(22)相对于吸引子${\xi ^*}$ 是全局渐近稳定的. □不难发现式(4)的约束条件是式(24)的一种特殊情况, 即当
$P$ 为单位矩阵时, 式(24)就等同于式(4). SEDS中稳定性和精度的两难问题本质上是因为稳定性约束过于严格, 使得可行的参数空间无法满足精度要求. 而基于P-QLF推导得到的稳定性约束放松了对$P$ 的限制, 只要满足$P$ 为对称正定矩阵即可, 从而扩展了原问题的可行域. 解决了SEDS学习不收缩轨迹时精度过低的问题.4. 实验
仿真实验在人类手写数据库(LASA数据集)和Franka-panda机器人上进行, 实验结果验证了本文提出方法的有效性.
4.1 DPGMM-GMR算法性能分析
尽管利用DPGMM对演示进行拟合可以自动确定合适的聚类个数, 但该方法引入了更多的超参数
$\Xi = \{ \alpha ,{{{m}}_0},{\beta _0},{{{W}}_0},{\nu _0}\}$ . 因此需要研究这些超参数对模型性能的影响, 从而来指导超参数的选择. 训练数据从LASA数据集(该数据集是二维平面手写轨迹数据)中随机选取10组演示.$\xi $ 表示二维笛卡尔位置, 即$\xi = \{ {\xi _1},{\xi _2}\} $ , 演示数据集合${{X}} = \{ {\xi _t},{\dot \xi _t}\} _{t = 1}^{\cal T}$ . 通常根据对称性, 超参数${{{m}}_0}$ 会选择为${{X}}$ 的均值. 而超参数${{{W}}_0}$ 是一个$4 \times 4$ 的矩阵, 难以对所有矩阵元素进行分析, 因此令${{{W}}_0} = \omega \times {{I}}$ , 其中$\omega $ 为缩放系数, 是一个正标量.${{I}}$ 是$4 \times 4$ 的单位矩阵. 只需要对$\alpha 、{\beta _0}、\omega 、{\nu _0}$ 四个标量超参数进行研究.对10组演示训练得到10个DPGMM, 用对数似然值给模型打分, 数值越高则说明模型拟合效果越好. 10个模型的对数似然值相对于各个超参数(固定其他超参数只变化一个超参数)的变化趋势如图3所示. 由图3可以看出: 1)模型对于超参数的变化不敏感, 一般
${\nu _0}$ 取数据维数即可,${\beta _0}\;和\;\omega$ 取值不宜过大,$\alpha $ 对模型影响最大, 但只有在$\ln \alpha > 2$ 时似然对数值才发生明显下降; 2)对于任意一个超参数, 10个模型的对数似然值对于该超参数具有相同变化趋势, 这意味着DPGMM超参数具有可复用性, 一组超参数能够适用于相同场景下的不同演示数据集, 例如LASA数据集, 同一个机械臂操作空间下的不同任务演示等. DPGMM超参数的不敏感性和可复用性使其在实际任务中的使用更加便捷.接着, 在整个LASA数据集上定量评估基于VI的DPGMM-GMR算法拟合初始DS的效果, 超参数均设置为
$\alpha = {\beta _0} = \omega = 1,\;{\nu _0} = 4$ . 对比算法包括基于贝叶斯信息准则的GMM-GMR (EM算法)、狄利克雷分布GMM-GMR (VI)和DPGMM-GMR, 其中贝叶斯信息准则高斯混合模型最大评估分量设定为15个, 其余方法的截断分量也设置为15. 性能指标采用以下形式均方根误差(Root mean square error, RMSE):$${{RMSE}} = \frac{1}{M}\sum\limits_{t \;=\; 1}^{\cal T} {\left\| {{{\dot \xi }_t} - f\left( {{\xi _t}} \right)} \right\|} $$ (27) 式中,
$M$ 和${\cal T}$ 分别表示一组演示中轨迹的条数和所有的轨迹点个数.表 1 4种GMR算法在数据库LASA上的性能比较Table 1 Performance comparison of four GMR algorithmson database LASA方法 总RMSE 总训练时间 (${\rm s}$) BIC-GMM (EM) 269.43 75.26 DdGMM (VI) 206.15 49.39 DPGMM (Gibbs) 118.58 157.48 DPGMM (VI) 130.79 39.79 4.2 i-SEDS学习方法性能分析
本节i-SEDS的性能分析同样在数据集LASA上进行, 如果算法能够使复现的轨迹紧密(准确)地跟随演示轨迹, 则表明该算法可以令人满意地解决稳定性和精度的难题.
由图4可以看出, 所有复现轨迹紧密跟随了演示轨迹, 仿真结果说明了i-SEDS的有效性. 图5给出了SEDS和i-SEDS在部分不收缩轨迹上的复现结果. 可以看出, SEDS生成的轨迹完全偏离了演示, 这是由于遵循QLF稳定性结果导致的. 图5定性地说明了i-SEDS可以较好地解决SEDS稳定性和精度的难题.
为了定量分析该方法的有效性, 使用文献[28]提出的扫描误差区域(Swept error area, SEA). SEA方法计算了演示轨迹和复现轨迹之间的面积, 计算公式如下:
$${\cal E} = \frac{1}{M}\sum\limits_{m = 1}^M {\sum\limits_{t= 0}^{{T^m}} {\cal A} } \left( {{{\hat \xi }_{t,m}},{{\hat \xi }_{t + 1,m}},{\xi _{t,m}},{\xi _{t + 1,m}}} \right)$$ (28) 式中,
${\hat \xi _{t,m}}$ 和${\xi _{t,m}}$ 分别表示复现点和演示点. 如图6所示, 函数${\cal A}\left( \cdot \right)$ 计算由4个点生成的封闭四边形的面积, 这反映了复现和演示的一致性.考虑到原始SEDS中2种不同的目标函数MSE和LL, 以及i-SEDS在学习不收缩演示轨迹时具有明显优势. 因此利用SEA方法定量分析i-SEDS (MSE)、i-SEDS (LL)、SEDS (MSE)、SEDS (LL)四种方法分别在收缩和不收缩演示轨迹上的性能. 从LASA数据集中取收缩轨迹和不收缩轨迹各10组, 分别使用上述4种方法学习稳定DS, 计算相应的SEA, 结果如结果如图7所示. 从图7(a)可以看出, 四种方法的SEA在收缩轨迹上差别并不明显, i-SEDS仅略优于SEDS方法. 但在不收缩轨迹组的图7(b)中, i-SEDS方法的复现精度要明显优于SEDS方法. 基于LL的方法精度要略高于MSE, 但MSE的计算速度更快, 因此, 在实际使用中可以根据需求进行选择.
4.3 机器人实验
为了验证本文方法的有效性, 在7自由度的机械臂Franka-panda机器人上进行了实验验证.
机器人实验是在操作空间中学习物块搬运任务, 如图8所示. 这是一个点到点运动的任务, 机械臂需要学会如何从机械臂初始位置到达物块放置位置, 然后拾取物块将其放入目标容器中, 整个过程由拾取物块−放置物块2部分组成, 并利用Kinect摄像头对物体进行跟踪.
1)示教: 首先设置panda机械臂为示教模式, 再由演示人员拖动机械臂完成拾取物块−放置物块2个步骤, 整个示教过程如图8所示. 然后不断调整物块起始位置重复上述示教过程共8次, 同时以10 Hz频率记录机械臂末端位置和速度, 获取8条演示轨迹数据, 记作
$\left\{ {{\xi _1},{\xi _2},{\xi _3},{{\dot \xi }_1},{{\dot \xi }_2},{{\dot \xi }_3}} \right\}_{t = 0,m = 1}^{{T^m},M = 8}$ .2)学习: 在对演示轨迹建模前, 需要对数据进行一些预处理. a)轨迹平滑: 使用移动均值滤波对采集到的演示数据进行平滑处理. b)任务分割: 为了降低任务的学习成本, 将物品搬运任务分解成拾取物块−放置物块2个子任务. 根据2个子任务切换过程中机械臂末端速度为零这一特点将演示轨迹分成2段, 然后各自进行学习. c)目标位置原点化: 为保证动态系统的参数不会随目标位置的变化而变化, 需要将参考坐标系的原点设在目标位置处. 2个子任务的演示轨迹都转化为以原点为终点的轨迹. 预处理后的演示轨迹如图9所示.
使用
$i$ -SEDS方法对预处理后的演示数据进行建模, 用于2个子任务学习的超参数均设置为$\alpha = {\rm{0}}{\rm{.1, }}\;{\beta _0} = \omega = 1,\;{\nu _0} = 6$ .3)复现. 机械臂从初始位置开始, 通过模型不断迭代得到当前位置下的期望速度
${\left\{ {{{\dot \xi }_1},{{\dot \xi }_2},{{\dot \xi }_3}} \right\}_{des}}$ , 将其作为逆运动学的输入驱动机械臂按照期望轨迹到达目标位置. 记录每次生成的轨迹, 获得的结果如图10所示. 所有复现轨迹都与演示具有相似的位置和速度轮廓, 说明两者均遵循相似的动力学.a)目标位置的变化. 图11显示了模型对环境变化的鲁棒性, 其中虚线表示原始复现轨迹, 实线表示在
$t = {\rm{4}}\;{\rm{s}}$ 时对目标位置进行转移后由动态系统重新规划的轨迹, 可以看到该模型可以快速适应目标位置的变化, 重新规划轨迹使机械臂到达目标.b)抗扰动能力. 图12显示了模型对外界扰动的鲁棒性, 在
$t = 4\;{\rm{s}}$ 时, 施加扰动使机械臂脱离原始轨迹, 其中虚线表示原始轨迹, 实线表示机械臂在脱离原始轨迹后模型重新规划的轨迹, 可以看到机械臂在受到外界扰动后仍能平稳到达目标位置, 因此该模型具备一定的抗扰动能力.上述机器人实验展示了i-SEDS方法在确保稳定性的前提下, 仍具有良好的复现精度以及泛化能力和抗扰动能力.
5. 结束语
本文分析了SEDS方法中存在的缺陷, 并给出了合理的解决方案. 首先利用DPGMM对演示数据进行拟合, 并使用变分推断求解模型参数, 推导GMR拟合初始DS. 解决了基于EM算法的GMM难以确定混合分量个数的难题. 然后利用P-QLF推导新的宽稳定性约束取代原有约束, 最后结合目标函数优化得到能精确复现的稳定DS. 在LASA数据集中验证了DPGMM超参数的性质和其推导的GMR算法的性能, 以及i-SEDS方法在不收缩轨迹上的优越性能. 最后通过Franka-panda协作机器人上的实验, 验证了本文方法在实际场景的有效性. 在未来工作中, 将降低本文方法模型的复杂度.
-
表 1 机器人类脑感知方向文献总结
Table 1 Summary of the literature of robotic brain-inspired perception
模态 研究团队 传感器种类 网络结构 主要功能 视觉 Kreiser 等[41] 相机
(iCub机器人)仿脑内回路 识别物体并将注意力转移到感兴趣的物体上 Zhou等[20] 激光雷达 (LiDAR)
(文中未确切指明)层式 感知物体的三维轮廓 Ambrosano等[46] 相机
(iCub机器人)仿视网膜回路 机器人视线追踪 Li等[21] 相机 层式 手势识别和意图推断 Qiao等[25] 相机 层式 物体 (人脸)识别 Tang等[43] 距离传感器和RGB相机 多网络融合 SLAM Yoon等[42] 相机 仿脑内回路 SLAM Hussaini等[22] 相机
(文中未确切指明)层式 地点识别
(Place recognition)听觉 Deng等[27, 47] 麦克风 层式 语音分类 Zou等[4] 麦克风 层式 语音识别 Gao等[29] 麦克风 阵列式 声源定位 Liu等[28] 麦克风 仿脑内回路 声源定位 触觉 Chou等[30] 触觉传感器
(文中未确切指明)仿脑内回路 感知人类的轻抚动作 Feng等[31] 多传感器融合 仿脑内回路 机器人的“痛觉”感知 张超凡等[32] GelStereo触觉传感器 层式 触觉滑动感知 Liu等[39] 基于晶体管的电子皮肤 仿生物触觉回路 触觉记忆与学习
(以痛觉反射为例)Dabbous等[33] 压阻式传感器阵列 层式 触觉模态分类 Jiang等[34] 压电传感器 层式 表面粗糙度感知 Lee等[38] 基于压阻器和忆阻器的触觉神经元 库网络
(Reservoir)生物组织硬度感知 Han等[37] 基于摩擦纳米发电器的人工触觉感受器 层式 广范围 (3 kPa)触觉感知
(以呼吸状态辨识为例)Kang等[35] 事件驱动触觉传感器
NeuTouch[48]层式 触觉对象识别
触觉滑动检测Wen等[40] 基于压阻器和忆阻器的触觉神经元 层式 触觉感知和识别
(以MNIST分类为例)表 2 机器人类脑决策方向文献总结
Table 2 Summary of the literature of robotic brain-inspired decision
模型结构 研究团队 模型输入 模型输出 主要功能 循环结构 Rueckert等[56] 某一时刻Agent的状态
(例如空间位置)未来一段时间内的位置规划
(位置序列)有限和无限时间范围的任务规划问题 仿脑内回路 Zhao等[53] 视觉图像信息
(State)动作决策
(无人机的前进、后退、向左、向右)无人机飞行 (穿过窗户)过程决策任务 Daglarli等[55] 视觉信息
听觉信息机器人行为序列
决策奖励信号机器人的类人决策
(情感、注意力、意图等推理)左国玉等[50] 关于任务、记忆、 观测Affordance
和标签的词语该物品的Affordance (可以抓取)
或者该物品所需Affordance
的建议 (不可抓取)根据不同的任务选择合适的
物品和抓取位置Robertazzi等[52] 模拟视觉刺激
(方波信号)机器人动作
(向左、向右、保持不动)实现机器人在指定任务需求下的“动作抑制” Huang等[59] 状态预测误差
奖励预测误差预测时域调整量 在MB和MF控制之间
切换 (图9)层式 Liu等[58] 传感器感知到的数据 (转换为脉冲序列) 机器人控制量 (左右轮速度) 针对不同的任务需求激活不同的突触
实现控制策略的切换Skorheim等[57] 视觉感知信息
(7×7矩阵)运动决策信息
(3×3矩阵)实现虚拟环境中Agent的觅食决策 Zhao等[49] 环境上下文信息与对其他
个体状态和行为的观测对其他个体未来行为的预测 多智能体协同决策 表 3 机器人类脑控制方向文献总结
Table 3 Summary of the literature of robotic brain-inspired control
机器人类型 研究团队 网络输入 网络输出 主要功能 移动机器人 Lobov等[75]
(2-DoF)超声传感器信息
触觉传感器信息控制信号
(电机驱动量)移动控制
(避障)Wang等[68]
(2-DoF)声纳传感器信息 控制信号
(电机驱动量)移动控制
(避障、追踪、沿墙行走)Bing等[65]
(2-DoF)DVS图像信息 控制信号 (电机转速) 移动控制
(车道保持)Liu等[70]
(4-DoF)超声传感器 控制指令
(左、右、前进)移动控制
(避障)Lu等[64]
(4-DoF)超声传感器感知到的距离信息 控制信号 (转换为
左右轮转速)移动控制
(避障)机械臂 Xing等[7]
(未说明)其他网络输出的运动参数 关节驱动力矩 对小空间操作机器人
实现精确控制Chen等[86]
(1-DoF)期望角度与传感器信息 控制信号补偿量 提高机械臂的适应性和鲁棒性 IAbadia等[6]
(6-DoF)轨迹规划器生成的轨迹参数 机械臂控制力矩 通过预测运动指令实现对
指令延迟的鲁棒性Zahra等[87]
(6-DoF)目标运动状态与机械臂内部传感器信息 机械臂驱动量 提高机械臂在操作任务中的
精度和运动协调性Carrillo等[77]
(2-DoF)期望机械臂状态与目标信息 肩部与肘部驱动转动的调整量 机械臂运动控制 Zahra等[82]
(6-DoF)关节角速度变化量 机器人状态预测 降低机械臂的运动误差和执行时间 Zhang等[80]
(2-DoF)原始控制信号 控制信号纠正量 提升机械臂的运动精度 仿生机器人 Naveros等[88]
(3-DoF)感知运动信号
(Sensory-motor signal)眼球转动量 根据机器人头部转动控制机器人
眼球转动 (前庭眼反射)Naya等[5]
(24-DoF)状态观测量
(State)行动
(Action)考虑能耗成本的步态学习 Lele等[62]
(6-DoF)DVS图像信息 步态选择 移动控制 (捕猎) Espinal等[89]
(12-DoF)− 步态生成 作为CPG生成指定的步态 Jiang等[60]
(未说明)NVS图像信息 (神经形态视觉传感器) 控制信号
(传递给CPG生成对应的步态)移动控制
(目标追踪)− Wilson等[83] 控制信号 控制对象的状态预测 实现一般线性系统的自适应控制 注: DoF (Degree of freedom)为对应文献中机器人的自由度. -
[1] 于振中, 李强, 樊启高. 智能仿生算法在移动机器人路径规划优化中的应用综述. 计算机应用研究, 2019, 36(11): 3210−3219Yu Zhen-Zhong, Li Qiang, Fan Qi-Gao. Survey on application of bioinspired intelligent algorithms in path planning optimization of mobile robots. Application Research of Computers, 2019, 36(11): 3210−3219 [2] 蔡灿, 刘璇, 张建华, 张明路. 工业机器人避碰算法研究与展望. 机械设计, 2018, 35(4): 1−7Cai Can, Liu Xuan, Zhang Jian-Hua, Zhang Ming-Lu. Research and prospect of collision avoidance algorithm for industrial robots. Journal of Machine Design, 2018, 35(4): 1−7 [3] 黄海丰, 刘培森, 李擎, 于欣波. 协作机器人智能控制与人机交互研究综述. 工程科学学报, 2022, 44(4): 780−791 doi: 10.3321/j.issn.1001-053X.2022.4.bjkjdxxb202204028Huang Hai-Feng, Liu Pei-Sen, Li Qing, Yu Xin-Bo. Review: Intelligent control and human-robot interaction for collaborative robots. Chinese Journal of Engineering, 2022, 44(4): 780−791 doi: 10.3321/j.issn.1001-053X.2022.4.bjkjdxxb202204028 [4] Zou Z, Zhao R, Wu Y J, Yang Z Y, Tian L, Wu S, et al. A hybrid and scalable brain-inspired robotic platform. Scientific Reports, 2020, 10(1): Article No. 18160 doi: 10.1038/s41598-020-73366-9 [5] Naya K, Kutsuzawa K, Owaki D, Hayashibe M. Spiking neural network discovers energy-efficient hexapod motion in deep reinforcement learning. IEEE Access, 2021, 9: 150345−150354 doi: 10.1109/ACCESS.2021.3126311 [6] Abadia I, Naveros F, Ros E, Carrillo R R, Luque N R. A cerebellar-based solution to the nondeterministic time delay problem in robotic control. Science Robotics, 2021, 6(58): Article No. eabf2756 doi: 10.1126/scirobotics.abf2756 [7] Xing D P, Li J L, Zhang T L, Xu B. A brain-inspired approach for collision-free movement planning in the small operational space. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(5): 2094−2105 doi: 10.1109/TNNLS.2021.3111051 [8] Qiao H, Chen J H, Huang X. A survey of brain-inspired intelligent robots: Integration of vision, decision, motion control, and musculoskeletal systems. IEEE Transactions on Cybernetics, 2022, 52(10): 11267−11280 doi: 10.1109/TCYB.2021.3071312 [9] Qiao H, Wu Y X, Zhong S L, Yin P J, Chen J H. Brain-inspired intelligent robotics: Theoretical analysis and systematic application. Machine Intelligence Research, 2023, 20(1): 1−18 doi: 10.1007/s11633-022-1390-8 [10] Qiao H, Zhong S L, Chen Z Y, Wang H Z. Improving performance of robots using human-inspired approaches: A survey. Science China Information Sciences, 2022, 65(12): Article No. 221201 doi: 10.1007/s11432-022-3606-1 [11] Maass W. Networks of spiking neurons: The third generation of neural network models. Neural Networks, 1997, 10(9): 1659−1671 doi: 10.1016/S0893-6080(97)00011-7 [12] Roy K, Jaiswal A, Panda P. Towards spike-based machine intelligence with neuromorphic computing. Nature, 2019, 575(7784): 607−617 doi: 10.1038/s41586-019-1677-2 [13] Neftci E O. Data and power efficient intelligence with neuromorphic learning machines. iScience, 2018, 5: 52−68 doi: 10.1016/j.isci.2018.06.010 [14] Bing Z S, Meschede C, Röhrbein F, Huang K, Knoll A C. A survey of robotics control based on learning-inspired spiking neural networks. Frontiers in Neurorobotics, 2018, 12: Article No. 35 doi: 10.3389/fnbot.2018.00035 [15] 朱祥维, 沈丹, 肖凯, 马岳鑫, 廖祥, 古富强, 等. 类脑导航的机理、算法、实现与展望. 航空学报, 2023, 44(19): 1−33 doi: 10.7527/S1000-6893.2023.28569Zhu Xiang-Wei, Shen Dan, Xiao Kai, Ma Yue-Xin, Liao Xiang, Gu Fu-Qiang, et al. Mechanisms, algorithms, implementation and perspectives of brain-inspired navigation. Acta Aeronautica et Astronautica Sinica, 2023, 44(19): 1−33 doi: 10.7527/S1000-6893.2023.28569 [16] Zheng H L, Wu Y J, Deng L, Hu Y F, Li G Q. Going deeper with directly-trained larger spiking neural networks. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence. AAAI, 2021. 11062−11070 [17] Wu Y J, Deng L, Li G Q, Zhu J, Xie Y, Shi L P. Direct training for spiking neural networks: Faster, larger, better. In: Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Honolulu, USA: AAAI, 2019. 1311−1318 [18] Wu Y J, Deng L, Li G Q, Zhu J, Shi L P. Spatio-temporal backpropagation for training high-performance spiking neural networks. Frontiers in Neuroscience, 2018, 12: Article No. 331 doi: 10.3389/fnins.2018.00331 [19] Niu L Y, Wei Y, Liu W B, Long J Y, Xue T H. Research progress of spiking neural network in image classification: A review. Applied Intelligence, 2023, 53(16): 19466−19490 doi: 10.1007/s10489-023-04553-0 [20] Zhou S B, Chen Y, Li X H, Sanyal A. Deep SCNN-based real-time object detection for self-driving vehicles using LiDAR temporal data. IEEE Access, 2020, 8: 76903−76912 doi: 10.1109/ACCESS.2020.2990416 [21] Li J X, Li D J, Jiang R H, Xiao R, Tang H J, Tan K C. Vision-action semantic associative learning based on spiking neural networks for cognitive robot. IEEE Computational Intelligence Magazine, 2022, 17(4): 27−38 doi: 10.1109/MCI.2022.3199623 [22] Hussaini S, Milford M, Fischer T. Spiking neural networks for visual place recognition via weighted neuronal assignments. IEEE Robotics and Automation Letters, 2022, 7(2): 4094−4101 doi: 10.1109/LRA.2022.3149030 [23] Cao Y Q, Chen Y, Khosla D. Spiking deep convolutional neural networks for energy-efficient object recognition. International Journal of Computer Vision, 2015, 113(1): 54−66 doi: 10.1007/s11263-014-0788-3 [24] Rast A D, Adams S V, Davidson S, Davies S, Hopkins M, Rowley A, et al. Behavioral learning in a cognitive neuromorphic robot: An integrative approach. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(12): 6132−6144 doi: 10.1109/TNNLS.2018.2816518 [25] Qiao H, Xi X Y, Li Y L, Wu W, Li F F. Biologically inspired visual model with preliminary cognition and active attention adjustment. IEEE Transactions on Cybernetics, 2015, 45(11): 2612−2624 doi: 10.1109/TCYB.2014.2377196 [26] Qiao H, Li Y L, Li F F, Xi X Y, Wu W. Biologically inspired model for visual cognition achieving unsupervised episodic and semantic feature learning. IEEE Transactions on Cybernetics, 2016, 46(10): 2335−2347 doi: 10.1109/TCYB.2015.2476706 [27] Deng B, Fan Y R, Wang J, Yang S M. Reconstruction of a fully paralleled auditory spiking neural network and FPGA implementation. IEEE Transactions on Biomedical Circuits and Systems, 2021, 15(6): 1320−1331 [28] Liu J D, Perez-Gonzalez D, Rees A, Erwin H, Wermter S. A biologically inspired spiking neural network model of the auditory midbrain for sound source localisation. Neurocomputing, 2010, 74(1−3): 129−139 doi: 10.1016/j.neucom.2009.10.030 [29] Gao B, Zhou Y, Zhang Q T, Zhang S L, Yao P, Xi Y, et al. Memristor-based analogue computing for brain-inspired sound localization with in situ training. Nature Communications, 2022, 13(1): Article No. 2026 doi: 10.1038/s41467-022-29712-8 [30] Chou T S, Bucci L D, Krichmar J L. Learning touch preferences with a tactile robot using dopamine modulated STDP in a model of insular cortex. Frontiers in Neurorobotics, 2015, 9: Article No. 6 [31] Feng H, Zeng Y. A brain-inspired robot pain model based on a spiking neural network. Frontiers in Neurorobotics, 2022, 16: Article No. 1025338 doi: 10.3389/fnbot.2022.1025338 [32] 张超凡, 乔一铭, 曹露, 王志刚, 崔少伟, 王硕. 基于神经形态的触觉滑动感知方法. 浙江大学学报(工学版), 2023, 57(4): 683−692 doi: 10.3785/j.issn.1008-973X.2023.04.005Zhang Chao-Fan, Qiao Yi-Ming, Cao Lu, Wang Zhi-Gang, Cui Shao-Wei, Wang Shuo. Tactile slip detection method based on neuromorphic modeling. Journal of Zhejiang University (Engineering Science), 2023, 57(4): 683−692 doi: 10.3785/j.issn.1008-973X.2023.04.005 [33] Dabbous A, Ibrahim A, Valle M. Feed-forward SNN for touch modality prediction. In: Proceedings of the 6th International Conference on System-Integrated Intelligence. Genova, Italy: Springer, 2022. 215−222 [34] Jiang C M, Yang L, Zhang Y L. A spiking neural network with spike-timing-dependent plasticity for surface roughness analysis. IEEE Sensors Journal, 2022, 22(1): 438−445 doi: 10.1109/JSEN.2021.3120845 [35] Kang P, Banerjee S, Chopp H, Katsaggelos A, Cossairt O. Boost event-driven tactile learning with location spiking neurons. Frontiers in Neuroscience, 2023, 17: Article No. 1127537 doi: 10.3389/fnins.2023.1127537 [36] Navaraj W, Dahiya R. Fingerprint-enhanced capacitive-piezoelectric flexible sensing skin to discriminate static and dynamic tactile stimuli. Advanced Intelligent Systems, 2019, 1(7): Article No. 1900051 doi: 10.1002/aisy.201900051 [37] Han J K, Tcho I W, Jeon S B, Yu J M, Kim W G, Choi Y K. Self-powered artificial mechanoreceptor based on triboelectrification for a neuromorphic tactile system. Advanced Science, 2022, 9(9): Article No. 2105076 doi: 10.1002/advs.202105076 [38] Lee J, Kim S, Park S, Lee J, Hwang W, Cho S W, et al. An artificial tactile neuron enabling spiking representation of stiffness and disease diagnosis. Advanced Materials, 2022, 34(24): Article No. 2201608 doi: 10.1002/adma.202201608 [39] Liu F Y, Deswal S, Christou A, Baghini M S, Chirila R, Shakthivel D, et al. Printed synaptic transistor-based electronic skin for robots to feel and learn. Science Robotics, 2022, 7(67): Article No. eabl7286 doi: 10.1126/scirobotics.abl7286 [40] Wen J, Zhang L, Wang Y Z, Guo X. Artificial tactile perception system based on spiking tactile neurons and spiking neural networks. ACS Applied Materials & Interfaces, 2024, 16(1): 998−1004 [41] Kreiser R, Waibel G, Armengol N, Renner A, Sandamirskaya Y. Error estimation and correction in a spiking neural network for map formation in neuromorphic hardware. In: Proceedings of the IEEE International Conference on Robotics and Automation. Paris, France: IEEE, 2020. 6134−6140 [42] Yoon J H, Raychowdhury A. NeuroSLAM: A 65-nm 7.25-to-8.79-TOPS/W mixed-signal oscillator-based SLAM accelerator for edge robotics. IEEE Journal of Solid-State Circuits, 2021, 56(1): 66−78 doi: 10.1109/JSSC.2020.3028298 [43] Tang G Z, Shah A, Michmizos K P. Spiking neural network on neuromorphic hardware for energy-efficient unidimensional SLAM. In: Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems. Macao, China: IEEE, 2019. 4176−4181 [44] Wang H, Li Y F. Bioinspired membrane learnable spiking neural network for autonomous vehicle sensors fault diagnosis under open environments. Reliability Engineering & System Safety, 2023, 233: Article No. 109102 [45] Lopez-Randulfe J, Duswald T, Bing Z S, Knoll A. Spiking neural network for fourier transform and object detection for automotive radar. Frontiers in Neurorobotics, 2021, 15: Article No. 688344 doi: 10.3389/fnbot.2021.688344 [46] Ambrosano A, Vannucci L, Albanese U, Kirtay M, Falotico E, Martínez-Cañada P, et al. Retina color-opponency based pursuit implemented through spiking neural networks in the neurorobotics platform. In: Proceedings of the 5th Conference on Biomimetic and Biohybrid Systems. Edinburgh, UK: Springer, 2016. 16−27 [47] Deng B, Fan Y R, Wang J, Yang S M. Auditory perception architecture with spiking neural network and implementation on FPGA. Neural Networks, 2023, 165: 31−42 doi: 10.1016/j.neunet.2023.05.026 [48] Taunyazov T, Sng W, Lim B, See H H, Kuan J, Ansari A F, et al. Event-driven visual-tactile sensing and learning for robots. In: Proceedings of the 16th Conference on Robotics: Science and Systems. Corvalis, USA: 2020. [49] Zhao Z Y, Zhao F F, Zhao Y X, Zeng Y, Sun Y Q. A brain-inspired theory of mind spiking neural network improves multi-agent cooperation and competition. Patterns, 2023, 4(8): Article No. 100775 doi: 10.1016/j.patter.2023.100775 [50] 左国玉, 刘洪星, 龚道雄, 阮晓钢. 受脑启发的机器人认知抓取决策模型. 北京工业大学学报, 2021, 47(8): 863−873 doi: 10.11936/bjutxb2020120034Zuo Guo-Yu, Liu Hong-Xing, Gong Dao-Xiong, Ruan Xiao-Gang. Brain-inspired decision-making model for robot cognitive grasping. Journal of Beijing University of Technology, 2021, 47(8): 863−873 doi: 10.11936/bjutxb2020120034 [51] Sun T J, Gao Z H, Chang Z Y, Zhao K H. Brain-like intelligent decision-making based on basal ganglia and its application in automatic car-following. Journal of Bionic Engineering, 2021, 18(6): 1439−1451 doi: 10.1007/s42235-021-00113-9 [52] Robertazzi F, Vissani M, Schillaci G, Falotico E. Brain-inspired meta-reinforcement learning cognitive control in conflictual inhibition decision-making task for artificial agents. Neural Networks, 2022, 154: 283−302 doi: 10.1016/j.neunet.2022.06.020 [53] Zhao F F, Zeng Y, Wang G X, Bai J, Xu B. A brain-inspired decision making model based on top-down biasing of prefrontal cortex to basal ganglia and its application in autonomous UAV explorations. Cognitive Computation, 2018, 10(2): 296−306 doi: 10.1007/s12559-017-9511-3 [54] Zhao F F, Zeng Y, Xu B. A brain-inspired decision-making spiking neural network and its application in unmanned aerial vehicle. Frontiers in Neurorobotics, 2018, 12: Article No. 56 doi: 10.3389/fnbot.2018.00056 [55] Daglarli E. Computational modeling of prefrontal cortex for meta-cognition of a humanoid robot. IEEE Access, 2020, 8: 98491−98507 doi: 10.1109/ACCESS.2020.2998396 [56] Rueckert E, Kappel D, Tanneberg D, Pecevski D, Peters J. Recurrent spiking networks solve planning tasks. Scientific Reports, 2016, 6(1): Article No. 21142 doi: 10.1038/srep21142 [57] Skorheim S, Lonjers P, Bazhenov M. A spiking network model of decision making employing rewarded STDP. PLoS One, 2014, 9(3): Article No. e90821 doi: 10.1371/journal.pone.0090821 [58] Liu J X, Lu H, Luo Y L, Yang S. Spiking neural network-based multi-task autonomous learning for mobile robots. Engineering Applications of Artificial Intelligence, 2021, 104: Article No. 104362 doi: 10.1016/j.engappai.2021.104362 [59] Huang X, Wu W, Qiao H. Connecting model-based and model-free control with emotion modulation in learning systems. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2021, 51(8): 4624−4638 doi: 10.1109/TSMC.2019.2933152 [60] Jiang Z Y, Bing Z S, Huang K, Knoll A. Retina-based pipe-like object tracking implemented through spiking neural network on a snake robot. Frontiers in Neurorobotics, 2019, 13: Article No. 29 doi: 10.3389/fnbot.2019.00029 [61] Wang M, Zhang Y Y, Yu J Z. An SNN-CPG hybrid locomotion control for biomimetic robotic fish. Journal of Intelligent & Robotic Systems, 2022, 105(2): Article No. 45 [62] Lele A, Fang Y, Ting J, Raychowdhury A. An end-to-end spiking neural network platform for edge robotics: From event-cameras to central pattern generation. IEEE Transactions on Cognitive and Developmental Systems, 2022, 14(3): 1092−1103 doi: 10.1109/TCDS.2021.3097675 [63] Cao Z Q, Cheng L, Zhou C, Gu N, Wang X, Tan M. Spiking neural network-based target tracking control for autonomous mobile robots. Neural Computing and Applications, 2015, 26(8): 1839−1847 doi: 10.1007/s00521-015-1848-5 [64] Lu H, Liu J X, Luo Y L, Hua Y F, Qiu S H, Huang Y C. An autonomous learning mobile robot using biological reward modulate STDP. Neurocomputing, 2021, 458: 308−318 doi: 10.1016/j.neucom.2021.06.027 [65] Bing Z S, Meschede C, Chen G, Knoll A, Huang K. Indirect and direct training of spiking neural networks for end-to-end control of a lane-keeping vehicle. Neural Networks, 2020, 121: 21−36 doi: 10.1016/j.neunet.2019.05.019 [66] Bing Z S, Baumann I, Jiang Z Y, Huang K, Cai C X, Knoll A. Supervised learning in snn via reward-modulated spike-timing-dependent plasticity for a target reaching vehicle. Frontiers in Neurorobotics, 2019, 13: Article No. 18 doi: 10.3389/fnbot.2019.00018 [67] Nichols E, McDaid L J, Siddique N H. Case study on a self-organizing spiking neural network for robot navigation. International Journal of Neural Systems, 2010, 20(6): 501−508 doi: 10.1142/S0129065710002577 [68] Wang X Q, Hou Z G, Lv F, Tan M, Wang Y J. Mobile robots' modular navigation controller using spiking neural networks. Neurocomputing, 2014, 134: 230−238 doi: 10.1016/j.neucom.2013.07.055 [69] Bing Z S, Jiang Z Y, Cheng L, Cai C X, Huang K, Knoll A. End to end learning of a multi-layered SNN based on R-STDP for a target tracking snake-like robot. In: Proceedings of the IEEE International Conference on Robotics and Automation. Montreal, Canada: IEEE, 2019. 9645−9651 [70] Liu J X, Hua Y F, Yang R X, Luo Y L, Lu H, Wang Y H, et al. Bio-inspired autonomous learning algorithm with application to mobile robot obstacle avoidance. Frontiers in Neuroscience, 2022, 16: Article No. 905596 doi: 10.3389/fnins.2022.905596 [71] Guerrero-Criollo R J, Castaño-López J A, Hurtado-López J, Ramirez-Moreno D F. Bio-inspired neural networks for decision-making mechanisms and neuromodulation for motor control in a differential robot. Frontiers in Neurorobotics, 2023, 17: Article No. 1078074 doi: 10.3389/fnbot.2023.1078074 [72] Guerrero-Criollo R J, Castaño-López J A, Díaz-Cuchala R E, Rozo-Giraldo Y D, Ramirez-Moreno D F. Design and simulation of a bio-inspired neural network for the motor control of a mobile automaton. In: Proceedings of the IEEE Colombian Conference on Applications of Computational Intelligence. Cali, Colombia: IEEE, 2022. 1−6 [73] Abadía I, Naveros F, Garrido J A, Ros E, Luque N R. On robot compliance: A cerebellar control approach. IEEE Transactions on Cybernetics, 2021, 51(5): 2476−2489 doi: 10.1109/TCYB.2019.2945498 [74] 戴嘉伟, 熊智, 晁丽君, 杨闯. 基于STDP奖励调节的类脑面向目标导航. 导航定位与授时, 2023, 10(2): 47−56Dai Jia-Wei, Xiong Zhi, Chao Li-Jun, Yang Chuang. Brain-inspired target-driven navigation based on STDP reward modulation. Navigation Positioning and Timing, 2023, 10(2): 47−56 [75] Lobov S A, Mikhaylov A N, Shamshin M, Makarov V A, Kazantsev V B. Spatial properties of STDP in a self-learning spiking neural network enable controlling a mobile robot. Frontiers in Neuroscience, 2020, 14: Article No. 88 doi: 10.3389/fnins.2020.00088 [76] Sathyanesan A, Zhou J, Scafidi J, Heck D H, Sillitoe R V, Gallo V. Emerging connections between cerebellar development, behaviour and complex brain disorders. Nature Reviews Neuroscience, 2019, 20(5): 298−313 doi: 10.1038/s41583-019-0152-2 [77] Carrillo R R, Ros E, Boucheny C, Coenen O J M D. A real-time spiking cerebellum model for learning robot control. Biosystems, 2008, 94(1−2): 18−27 doi: 10.1016/j.biosystems.2008.05.008 [78] Oikonomou K M, Kansizoglou I, Gasteratos A. A hybrid spiking neural network reinforcement learning agent for energy-efficient object manipulation. Machines, 2023, 11(2): Article No. 162 doi: 10.3390/machines11020162 [79] Liu Y X, Pan W. Spiking neural-networks-based data-driven control. Electronics, 2023, 12(2): Article No. 310 doi: 10.3390/electronics12020310 [80] Zhang J H, Chen J H, Wu W, Qiao H. A cerebellum-inspired prediction and correction model for motion control of a musculoskeletal robot. IEEE Transactions on Cognitive and Developmental Systems, 2023, 15(3): 1209−1223 doi: 10.1109/TCDS.2022.3200839 [81] Cao Y, Huang J, Ding G Z, Wang Y J. Design of nonlinear predictive control for pneumatic muscle actuator based on echo state gaussian process. IFAC-PapersOnLine, 2017, 50(1): 1952−1957 doi: 10.1016/j.ifacol.2017.08.390 [82] Zahra O, Navarro-Alarcon D, Tolu S. Vision-based control for robots by a fully spiking neural system relying on cerebellar predictive learning. arXiv preprint arXiv: 2011.01641, 2020. [83] Wilson E D, Assaf T, Pearson M J, Rossiter J M, Dean P, Anderson S R, et al. Biohybrid control of general linear systems using the adaptive filter model of cerebellum. Frontiers in Neurorobotics, 2015, 9: Article No. 5 [84] Lechner M, Hasani R, Amini A, Henzinger T A, Rus D, Grosu R. Neural circuit policies enabling auditable autonomy. Nature Machine Intelligence, 2020, 2(10): 642−652 doi: 10.1038/s42256-020-00237-3 [85] Hasani R, Lechner M, Amini A, Liebenwein L, Ray A, Tschaikowski M, et al. Closed-form continuous-time neural networks. Nature Machine Intelligence, 2022, 4(11): 992−1003 doi: 10.1038/s42256-022-00556-7 [86] Chen X Y, Zhu W X, Liang W Y, Lang Y L, Ren Q Y. Control of antagonistic McKibben muscles via a bio-inspired approach. Journal of Bionic Engineering, 2022, 19(6): 1771−1789 doi: 10.1007/s42235-022-00225-w [87] Zahra O, Navarro-Alarcon D, Tolu S. A neurorobotic embodiment for exploring the dynamical interactions of a spiking cerebellar model and a robot arm during vision-based manipulation tasks. International Journal of Neural Systems, 2022, 32(8): Article No. 2150028 doi: 10.1142/S0129065721500283 [88] Naveros F, Luque N R, Ros E, Arleo A. VOR adaptation on a humanoid iCub robot using a spiking cerebellar model. IEEE Transactions on Cybernetics, 2020, 50(11): 4744−4757 doi: 10.1109/TCYB.2019.2899246 [89] Espinal A, Rostro-Gonzalez H, Carpio M, Guerra-Hernandez E I, Ornelas-Rodriguez M, Puga-Soberanes H J, et al. Quadrupedal robot locomotion: A biologically inspired approach and its hardware implementation. Computational Intelligence and Neuroscience, 2016, 2016: Article No. 5615618 [90] Aitsam M, Davies S, Di Nuovo A. Neuromorphic computing for interactive robotics: A systematic review. IEEE Access, 2022, 10: 122261−122279 doi: 10.1109/ACCESS.2022.3219440 [91] Guo Y F, Huang X H, Ma Z. Direct learning-based deep spiking neural networks: A review. Frontiers in Neuroscience, 2023, 17: Article No. 1209795 doi: 10.3389/fnins.2023.1209795 [92] Shen G B, Zhao D C, Dong Y T, Zeng Y. Brain-inspired neural circuit evolution for spiking neural networks. Proceedings of the National Academy of Sciences of the United States of America, 2023, 120(39): Article No. e2218173120 [93] Javanshir A, Nguyen T T, Mahmud M A P, Kouzani A Z. Advancements in algorithms and neuromorphic hardware for spiking neural networks. Neural Computation, 2022, 34(6): 1289−1328 doi: 10.1162/neco_a_01499 [94] Quintana F M, Perez-Peña F, Galindo P L. Bio-plausible digital implementation of a reward modulated STDP synapse. Neural Computing and Applications, 2022, 34(18): 15649−15660 doi: 10.1007/s00521-022-07220-6 [95] 胡金岭. 机械臂类脑控制平台的设计与实现研究 [硕士学位论文], 天津大学, 中国, 2019.Hu Jin-Ling. Design and Implementation of Brain-inspired Control Platform for Manipulator [Master thesis], Tianjin University, China, 2019. 期刊类型引用(3)
1. 井荣枝,王延堂,陈小乐,徐峰. 空间约束下多关节机械臂架末端柔顺控制方法. 机械设计与制造. 2024(11): 122-126 . 百度学术
2. 甘雨,郭鹏,林立栋. 基于变分贝叶斯推断的DPGMM风电机组异常数据识别研究. 动力工程学报. 2023(07): 885-892 . 百度学术
3. 杨怡婷. 两轮自平衡可移动机器人能耗最优运动轨迹规划方法. 兰州文理学院学报(自然科学版). 2022(01): 59-63 . 百度学术
其他类型引用(6)
-