2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

具身智能自主无人系统技术

孙长银 袁心 王远大 柳文章

孟庆桐, 常东明, 曹姗, 胡若晨, 蒋田仔, 左年明. SignBrain: 无线可穿戴脑电采集技术. 自动化学报, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240578
引用本文: 孙长银, 袁心, 王远大, 柳文章. 具身智能自主无人系统技术. 自动化学报, 2025, 51(4): 1−16 doi: 10.16383/j.aas.c240456
Meng Qing-Tong, Chang Dong-Ming, Cao Shan, Hu Ruo-Chen, Jiang Tian-Zi, Zuo Nian-Ming. Signbrain: wireless wearable eeg device. Acta Automatica Sinica, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240578
Citation: Sun Chang-Yin, Yuan Xin, Wang Yuan-Da, Liu Wen-Zhang. Embodied intelligence autonomous unmanned systems technology. Acta Automatica Sinica, 2025, 51(4): 1−16 doi: 10.16383/j.aas.c240456

具身智能自主无人系统技术

doi: 10.16383/j.aas.c240456 cstr: 32138.14.j.aas.c240456
基金项目: 国家自然科学基金创新研究群体(61921004), 国家自然科学基金重点项目(62236002), 国家自然科学基金(62203113)资助
详细信息
    作者简介:

    孙长银:安徽大学人工智能学院教授. 1996年获得四川大学应用数学专业学士学位, 分别于2001年、2004年获得东南大学电子工程专业硕士和博士学位. 主要研究方向为智能控制, 飞行器控制, 模式识别和优化理论. 本文通信作者. E-mail: cysun@seu.edu.cn

    袁心:东南大学自动化学院博士后. 2021年获得东南大学控制科学与工程专业博士学位. 主要研究方向为深度强化学习和最优控制. E-mail: xinyuan@seu.edu.cn

    王远大:东南大学自动化学院博士后. 2020年获得东南大学控制科学与工程专业博士学位. 主要研究方向为深度强化学习和机器人系统控制. E-mail: wangyd@seu.edu.cn

    柳文章:安徽大学人工智能学院讲师. 2022年获得东南大学控制科学与工程专业博士学位. 主要研究方向为深度强化学习, 多智能体强化学习, 迁移强化学习, 机器人. E-mail: wzliu@ahu.edu.cn

Embodied Intelligence Autonomous Unmanned Systems Technology

Funds: Supported by National Natural Science Foundation of China for Creative Research Groups (61921004), Key Projects of National Natural Science Foundation of China (62236002), and National Natural Science Foundation of China (62203113)
More Information
    Author Bio:

    SUN Chang-Yin Professor at the School of Artificial Intelligence, Anhui University. He received his bachelor degree in applied mathematics from Sichuan University in 1996, and his master and Ph.D. degrees in electrical engineering from Southeast University in 2001 and 2004, respectively. His research interest covers intelligent control, flight control, pattern recognition, and optimal theory. Corresponding author of this paper

    YUAN Xin Postdoctor at the School of Automation, Southeast University. He received his Ph.D. degree in control science and engineering from Southeast University in 2021. His research interest covers deep reinforcement learning and optimal control

    WANG Yuan-Da Postdoctor at the School of Automation, Southeast University. He received his Ph.D. degree in control science and engineering from Southeast University in 2020. His research interest covers deep reinforcement learning and robotic system control

    LIU Wen-Zhang Lecturer at the School of Artificial Intelligence, Anhui University. He received his Ph.D. degree in control science and engineering from Southeast University in 2022. His research interest covers deep reinforcement learning, multi-agent reinforcement learning, transfer reinforcement learning, and robotics

  • 摘要: 自主无人系统是一类具有自主感知和决策能力的智能系统, 在国防安全、航空航天、高性能机器人等方面有着广泛的应用. 近年来, 基于Transformer架构的各类大模型快速革新, 极大地推动了自主无人系统的发展. 目前, 自主无人系统正迎来一场以“具身智能”为核心的新一代技术革命. 大模型需要借助无人系统的物理实体来实现“具身化”, 无人系统可以利用大模型技术来实现“智能化”. 本文阐述具身智能自主无人系统的发展现状, 详细探讨包含大模型驱动的多模态感知、面向具身任务的推理与决策、基于动态交互的机器人学习与控制、三维场景具身模拟器等具身智能领域的关键技术. 最后, 指出目前具身智能无人系统所面临的挑战, 并展望未来的研究方向.
  • 近年来随着脑机交互、元宇宙概念热度的持续增加, 作为主要的脑机交互技术, 脑电技术备受关注. 脑电采集设备主要分为侵入式和非侵入式两类. 侵入式设备通过手术将微电极阵列植入大脑内部, 能够提供高精度、高信噪比的脑电信号, 但也伴随着手术风险、脑区限制、感染风险和高成本等问题[1]. 相比之下, 非侵入式设备则通过将电极放置在头皮表面, 避免了手术带来的各种风险和不适, 因此在临床和科研中使用更多.

    临床上相比于磁共振和功能近红外等设备, 非侵入式脑电采集设备具有操作简便、安全性高、成本较低、信号实时等优势, 不需要复杂的医疗操作经验就可以实现脑电信号的采集, 显著提高了用户的接受度和使用便利性. 国外脑电行业发展较早, 大部分厂商的非侵入脑电设备体积、重量及操作流程都无法照顾便携可穿戴, 尽管近年来本领域陆续有便携非侵入脑电设备推出, 但如何让受试者更加方便、快速佩戴设备, 同时兼顾脑电信号采集的质量一直是不断优化的方向.

    本团队自主研制的非侵入穿戴脑电设备 (以下简称SignBrain设备, 型号P)在对实验人员培训后, 可在3分钟之内完成佩戴及使用 (设备快速佩戴的展示视频链接: https://pan.cstcloud.cn/s/uLpXYelIRbI). SignBrain设备采用爪形结构设计, 前端装配有电极的万向抱紧件 (图5)可根据不同人群头型的大小, 自动调节与头皮的接触角度, 减少佩戴设备调整接触阻抗的时间, 提高实验效率. SignBrain设备采用盐水海绵作为导电介质, 提高使用的便捷性, 佩戴前后无需洗头, 即戴即用. 设备采集的脑电数据通过蓝牙发送至上位机软件, 在线显示脑电波形及实时接触阻抗, 并可随时离线存储或上传至远端服务器进行查看.

    SignBrain设备参照JJG1043-2008[2] (脑电图机检定规程)和GB 9706.226-2021[3] (医用电气设备 第2-26部分: 脑电图机的基本安全和基本性能专用要求)等标准, 已通过国家食品药品监督管理局天津医疗器械质量监督检测中心性能指标检测和安全性检测 (图1), 信号噪声≤1 uV, 共模抑制比为111 dB, 设备能够有效抑制共模噪声和干扰, 提高信号的清晰度和稳定性.

    图 1  SignBrain设备性能检测报告
    Fig. 1  SignBrain device performance test report

    设备已在多家医院及相关单位完成小批量的实验测试, 并通过两个脑机交互范式, 高频视觉诱发和想象写字实验验证设备信号的高精度和实时性, 具体实验及数据将在下文中详细介绍.

    SignBrain设备结构由主干、爪形、万向抱紧件、电极、海绵等配件构成, 选用合成的改性尼龙材料一体注塑加工而成. 整机重量约为160 g (如图7左图所示的佩戴效果).

    1.1.1   主干结构

    主干结构 (图2)是双侧爪形及盖板等配件的支撑结构, 提供设备在佩戴中的稳定性. 主干结构的弓形弯折角度, 决定了设备电极与头皮的贴合程度, 经过不断优化主干弯折角度, 进而调整万向抱紧件与头皮接触的压力, 使设备可在长时间佩戴使用时保持良好的贴合度及抗疲劳度. 主干左右侧分别设计有独立的舱室, 左侧舱室用于放置设备电路及射频模块, 右侧为电池舱室.

    图 2  设备主干结构
    Fig. 2  Device backbone structure
    1.1.2   爪形结构

    SignBrain设备设计有双侧爪形, 共计有两个爪形支体. 单侧爪形设计有8个有效通道, 每一个通道占用爪形结构的一条分支. 总共有16个采集通道、1个参考通道、1个接地通道, 所有通道在爪形结构上设计的位置符合国际10-20标准导联排布[4] (如图3所示).

    图 3  16通道SignBrain设备导联位置排布图
    Fig. 3  Layout of the electrodes for 16-channel SignBrain device

    爪形结构的优势在于佩戴时每一个分支通道可以穿过头发, 不同于脑电帽盖住头发的问题, 即便面对头发较多的女性, 稍微抬起所在分支, 使用棉签拨开头发即可快速降低阻抗, 减少被试在实验前的等待时间.

    左侧爪形 (图4(a))包含O1、P7、T7、C3、AF3、F3、F7、FC5、GND, 其中GND电极为偏置电极, 设计在前额叶.

    图 4  设备爪形结构
    Fig. 4  Claw structure of the device

    右侧爪形 (图4(b))包含O2、P8、T8、C4、AF4、F4、F8、FC6、REF, 其中REF电极为中心参考电极, 设计在Cz的位置.

    SignBrain设备16通道中前额叶脑区包含AF3, AF4, F3, F4, FC5, FC6, F7, F8, 可能涉及情绪调节、注意力和执行功能; 颞叶包含T7, T8可能涉及听觉处理和语言; 枕叶和顶叶有P7、P8、O1、O2, 可能涉及视觉处理.

    1.1.3   万向抱紧件

    SignBrain设备每一个爪形前端都设计有万向抱紧件, 该部件是设备爪形与头皮接触的重要组件

    万向抱紧件 (图5)采用碗状结构, 内部结构为倒锥形, 底部可放置盐水电极及柱形海绵, 盐水电极外侧留有盐水补充口, 及时补充盐水能减少长时间实验带来的基线漂移. 顶部设计有与爪形分支末端锁紧的球形结构, 使万向抱紧件具有30°范围内的万向活动空间.

    图 5  万向轴抱紧件
    Fig. 5  Universal shaft

    万向抱紧件内部的盐水电极采用粉末烧结工艺制造[5]而成, 该电极具有高导电性, 保证信号采集的准确性和稳定性. 粉末烧结材料具有良好的生物相容性, 能减少与皮肤接触时的过敏反应, 适合长期佩戴. 烧结过程可以增强电极的耐腐蚀性, 延长其使用寿命. 设备电极也可以使用常规的Ag/AgCl电极.

    万向抱紧件是SignBrain设备在结构上的主要创新之一, 相比传统的脑电帽或爪形结构脑电产品, 电极通过海绵 (或其他导电载体)与头皮的接触角度是固定得, 对于不同大小、形状的头型可能会存在不完全适配. 脑电采集过程中, 影响信号质量的重要因素之一是电极与头皮的接触阻抗, 接触阻抗越大, 引入的噪声越多[6]. 在本设备中, 由于采用柱形的盐水海绵作为头皮与电极的导电介质, 需与头皮垂直贴合. 因此在爪形结构末端设计有万向组件, 佩戴设备后, 可根据不同头型, 调整抱紧件的角度, 使其与头皮垂直, 保证海绵与头皮接触面积最大, 快速降低接触阻抗, 开展脑电实验.

    1.1.4   海绵设计

    考虑到不同性别、发量、头型的人群进行实验, 会存在个别通道抱紧件与头皮接触空位情况, 为此设计团队分别设计了短、中、长三种长度海绵 (图6), 设备默认组装短号海绵, 佩戴后若抱紧件与头皮的空位较大 (超过5 mm), 则建议更换中号长度海绵, 当抱紧件与头皮距离超过10 mm, 则建议更换长海绵. 更换海绵无需重新摘下设备, 只需抬起爪形分支, 重新插取海绵即可.

    图 6  短中长三种海绵规格展示
    Fig. 6  Three types of sponge: short, medium and long

    SignBrain设备在实际使用过程中, 需要对设备结构进行频繁的弯折操作 (包括佩戴过程、不同头型的挤压等), 在材料上需要考虑韧性, 没有足够韧性的材料, 主干结构无法夹住头部, 会在实验过程中滑落, 疲劳度较差的材料在几次实验后, 也将失去会弹性, 降低与头部的夹持力度. 我们在结构设计过程以及小批量生产之前进行了大量的材料选型比较, 包括尼龙、PE、ABS等材料, 综合比较发现改性尼龙可以获得好的韧性和回弹效果.

    因此, 设备主体材料选用合成的改性尼龙材质, 该材质具有很好的韧性, 能够承受反复弯折而不易断裂或损坏, 大量反复弯折具有良好的抗疲劳性, 能够在长时间使用后保持性能稳定, 并且尼龙具有较好的耐磨损性能, 在一定温度范围内保持其机械性能, 对环境温度变化具有一定的适应性, 适合在摩擦和磨损较大的环境中使用. 尼龙还是一种轻质材料, 非常适合可穿戴[7].

    SignBrain设备可以采集16通道的脑电信号, 支持有线/无线蓝牙方式实时传输脑电数据 (图7), 支持在线阻抗检测及提醒, Marker同步记录, 可连续工作8个小时以上.

    图 7  SignBrain设备效果图
    Fig. 7  SignBrain device effect picture

    系统内部设计前级滤波、ADC、低功耗MCU等电路[812]. 信号流程图如图8所示. 前端脑电信号经过前置滤波电路滤波, 由内部集成的两片ADS1299对其信号进行放大转换, 得到的数字量经过低功耗MCU压缩[13], 通过低功耗蓝牙或USB传输至软件系统.MCU实时计算各通道阻抗, 超过软件阻抗阈值后, 在每个万向抱紧件上配置有警示灯实时提醒主试, 被试各通道电极的接触情况.

    图 8  信号流程图
    Fig. 8  Signal flow illustration

    SignBrain设备在开启蓝牙传输时, 最大采样率支持976 S/s, 采用USB传输最大采样率支持2 kS/s.

    SignBrain设备硬件上可通过Type-C连接外设控制器, 记录实验过程中不同trial的关键信息, 关键信息标签位与该时刻16通道脑电数据组合, 通过无线蓝牙传输至软件系统, 无线延时小于10 ms. 同样上位机软件系统也可通过USB或者UART等接口与外设控制器进行连接, 完成Marker记录. 对于软件系统中集成的实验范式, 可在软件中直接记录.

    相比于32/64/128导联脑电设备, SignBrain爪形设备并不针对高通量脑电采集. 在设计之初, 设备主要考虑是能更加轻便、佩戴更加舒适, 使其适合长时间使用. SignBrain设备采用盐水作为导电介质, 实验前后无需洗头, 在临床门诊或高效采集中, 可穿戴、轻便、快速使用变得更为重要. 表1列举了美国Emotiv、美国CGX设备、奥地利g.tec g.Nautilus与SignBrain设备的对比. 其中美国CGX设备、美国Emotiv为类似可穿戴爪形结构设计的脑电设备, 奥地利g.tec g.Nautilus为脑电帽结构脑电设备.

    表 1  SignBrain与其他厂商便携脑电设备的技术指标对比
    Table 1  Comparison of technical specificities between SignBrain and the existing portable EEG devices
    对比参数 SignBrain Emotiv[14] 美国
    CGX[15]
    奥地利
    g.tec[16]
    通道数量 16 14 20 16
    采样频率 (Hz) ≥976 256 500 500
    A/D位数 24 16 24 24
    A/D分辨率 (μV) 0.53 0.51 0.53
    阻抗 > 500 MΩ > 100 MΩ
    共模抑制比 (dB) ≥ 111
    噪声 (uV) ≤ 1 μVpp < 1 μVrms < 0.6 μVrms
    结构设计 爪形 爪形 爪形 脑电帽
    重量 160 g 170 g 526 g 140 g
    下载: 导出CSV 
    | 显示表格

    可以发现, SignBrain的输入阻抗明显高于其他三个厂商, 对于微弱的脑电信号, 输入阻抗越高, 有助于更好地捕捉微弱信号, 数据采集更加准确, 并且可以减少外部噪声对信号的影响, 从而提高信号的信噪比. 同时SignBrain具有比其他厂商更高的采样率, 高采样率能够捕捉到快速变化的脑电信号, 如尖峰和快速振荡. 这对于分析脑电图的动态特征非常重要, 高采样率提供更好的时间分辨率, 在时间上相近的脑电活动可以被分开, 从而更好地分析不同事件相关的脑电活动. 佩戴方式上, 设备具有除脑电帽结构外, 比其他厂商更轻的重量, 对于快速应用的脑电场景中非常重要.

    为进一步实际对比信号质量上差异, 在使用相同被试同一天进行静息态闭眼脑电信号采集, 采用Matlab对信号完成0.5 ~ 40 Hz带通滤波及FFT后, 得到频谱图发现SignBrain设备的底噪要好于Emotiv (图9). 采用相同处理方法, 将其与德国BP非穿戴设备的信号进行对比 (图10), 发现SignBrain设备的信号同样出色, 其中BP设备的具体型号为: BrainAmp DC[17], 它是一款高性能的32导联脑电数据采集台式设备, 广泛应用于神经科学、心理学及临床研究. 表2为SignBrain设备与德国BP设备技术指标对比. 从指标上看, SignBrain设备的性能相比于德国BP高性能台式脑电设备并没有显著优势, 但通过频谱图上观察, SignBrain设备底噪的控制可以达到BP台式脑电设备的水平.

    图 9  SignBrain与Emotiv的频谱图对比
    Fig. 9  Spectrogram comparison between SignBrain and Emotiv
    图 10  SignBrain与BP的频谱图对比
    Fig. 10  Spectrogram comparison between SignBrain and BP
    表 2  SignBrain设备与德国BP设备技术指标对比
    Table 2  Comparison of technical specificities between SignBrain device and German BP device
    对比参数 SignBrain BrainAmp DC
    通道数量 16 32
    采样频率 (Hz) 976 5000
    A/D分辨率 (μV) 0.53 0.1
    输入动态范围μV(Vpp) ±17578 ±16384
    阻抗 实时阻抗 非实时阻抗
    共模抑制比 (dB) ≥ 111 ≥110
    噪声 (uV) ≤ 1 < 1
    电极材质 Ag/AgCL Ag/AgCL
    下载: 导出CSV 
    | 显示表格

    SignBrain设备已在各大医院及相关单位完成超过400例关于正常人、情绪检测、抑郁患者等数据的采集, 这些数据中包括静息态和任务态数据. 实际应用测试场景如图11所示.

    图 11  实际应用测试图
    Fig. 11  Practical application test

    前期主要包含两家医院, 北京大学第六医院和中国中医科学院广安门医院进行抑郁患者脑电数据的采集, 截至目前, 设备在两家医院采集的总人数为353例. 下面将简单介绍医院所采集脑电数据, 验证设备在实地不同人群的适用性及本设备所采集的脑电信号在抑郁症分类效果, 进而证明设备的易用性及应用价值.

    图12为医院随机抽取5名男性被试实验照片截图, 图13为医院随机抽取5名女性被试实验照片截图. 通过视频记录发现10名被试在头发数量上也存在明显差异.

    图 12  5名男性被试
    Fig. 12  5 male participants
    图 13  5名女性被试
    Fig. 13  5 female participants

    分别对男性女性被试相同通道的阻抗的均值进行对比, 以柱状图显示可以发现 (图14): (a) 10名被试中, 男性和女性佩戴设备后接触阻抗均小于18 kΩ; (b)从视频记录中看出女性的头发较长情况下, 接触阻抗仍小于18 kΩ. 同时我们对男性和女性被试所有通道阻抗值做双样本T检验, p值为0.93, 说明两个性别组无显著差异, 进一步证明设备接触阻抗不受性别影响.

    图 14  不同性别各通道阻抗均值比较
    Fig. 14  Comparison of the average impedance of each channel for different genders

    上述主要原因在于SignBrain设备采用爪形结构, 佩戴过程中, 每一个分支均可以很轻松穿过头发达到目标导联区域, 不会将整体头发压住, 这也是调节接触阻抗时间明显短于脑电帽的原因.

    通过抑郁自评量表SDS和具体得分人数统计, 发现353例医院的数据中有297人具有抑郁倾向, 无抑郁倾向56人.

    同时, 对SignBrain设备采集的脑电数据进行整理、数据预处理, 采用深度学习DCAAN[18][19]模型对处理后的数据集进行训练, 区分正常、轻度、中重度抑郁, 得到结果如表3所示, 发现其准确率达到70.61% (相关结果待发表), 在自有数据集实现了临床抑郁症的精准诊断.

    表 3  不同模型在SignBrain数据集上进行抑郁分类效果
    Table 3  The performance of different models in classifying depression on the SignBrain dataset
    Model Acc Pre Rec F1-score
    DAN (Long et al. , 2015) 74.36 58.92 60.19 58.91
    DANN (Ganin et al. , 2016) 74.37 65.92 63.09 62.88
    ADA (Haeusser et al. , 2017) 80.47 69.37 68.81 67.95
    DCANN (Ours) 82.73 70.61 69.42 68.67
    下载: 导出CSV 
    | 显示表格

    上述数据集为SignBrain设备在临床医院两年内的数据积累, 其中大部分为门诊数据, 考虑到门诊问诊时间较短, 设备在研制设计初期, 初衷是可以快速完成可穿戴, 高质量完成脑电数据采集. 并且SignBrain设备结合上位机软件可以在数据采集后快速回看并上传至远端服务器, 这一特点大大减少脑电实验过程中需要科研人员协同医生完成脑电采集的时间, 有问题的实验数据也可快速提醒纠正. 实现了在临床医院, 患者无需过多等待, 医生无需过多操作, 科研人员远端回溯分析的特点.

    本节将简单介绍SignBrain设备在想象写字及高频视觉诱发实验范式上的完整测试和验证, 通过在线脑机交互实验, 验证设备在脑机交互领域上的可行性.

    3.1.1   想象写字方案设计

    实验过程中, 参与者全程闭眼. 按照预设的26个字母的顺序, 在脑海中依次想象每个字母的书写轨迹. 为确保数据的精确性, 每个字母的想象被控制在约3秒的时间内. 在开始想象和结束想象这两个时间点, 参与者需要打Marker标记, 用于准确提取每个字母的脑电数据标签. 为了保持受试者的注意力和精力, 两次字母想象之间设置了1秒的休息时间. 这段时间允许大脑短暂的放松, 为下一次想象做好准备. 实验范式见图15.

    图 15  想象写字范式图
    Fig. 15  Experiment for imaginary writing recognition
    3.1.2   预处理及网络结构

    对原始数据进行“滤波-降采样-重参考-标准化”等预处理流程. 首先提取0.5 ~ 40 Hz频段的信号, 去除50 Hz工频, 降采样到250 Hz. 其次对数据进行重参考, 消除电极位置的影响. 最终数据的维度是(16, 750, n). 维度16是信号通道的数量; 维度750 = 250*3是数据采样点的数量, 每一个字母是3 s的数据, 降采样到250 Hz; 维度n是预处理后提取了多少个频段的信号, 本次提取了n = 3个频段的信号, 分别为: Alpha波段、Beta波段以及包含多个波段的0.5 Hz ~ 40 Hz.

    网络结构主要由时间维度卷积网络和域对抗全连接层构成. 首先将(16, 750, n = 3)维度的数据串联构造新维度(48, 750, 1)数据, 在此维度上完成不同视野卷积核在时间维度750上进行卷积, 其中特征提取器的损失函数见式 (1).

    $$ {L}_{predict}=(1-\mathrm{e})H({\mathit{y}}_{\mathit{t}\mathit{u}\mathit{r}\mathit{e}}, \;{\mathit{y}}_{\mathit{p}\mathit{r}\mathit{e}\mathit{d}})+eH ( {\mathit{y}}_{\mathit{s}\mathit{o}\mathit{f}\mathit{t}}, \;{\mathit{y}}_{\mathit{p}\mathit{r}\mathit{e}\mathit{d}} )$$ (1)

    式中$ {L}_{predict} $是最终损失, e为超参数 (强化模型对某些字母的关注), $ \left(1-\mathrm{e}\right)$为权重, $ H({\mathit{y}}_{\mathit{t}\mathit{u}\mathit{r}\mathit{e}}, \;{\mathit{y}}_{\mathit{p}\mathit{r}\mathit{e}\mathit{d}})$是真实标签与预测标签之间的交叉熵, $ H $($ {\mathit{y}}_{\mathit{s}\mathit{o}\mathit{f}\mathit{t}}, \;{\mathit{y}}_{\mathit{p}\mathit{r}\mathit{e}\mathit{d}} $)是标签平滑的向量与预测标签之间的交叉熵, $ {\mathit{y}}_{\mathit{s}\mathit{o}\mathit{f}\mathit{t}} $是进行标签平滑的向量.

    加入域对抗模块[19]将梯度反转层置于特征提取器的末端, 通过计算源域特征和目标域特征的最大均值差异, 模型可以更加关注不同域之间的特征分布差异问题, 提升模型对跨时间脑电信号的泛化性. 最大均值差异是基于再生核希尔伯特空间的距离来度量两个分布的差异. 具体损失函数见式 (2). 特征提取器朝着域不变特征的方向更新其权重, 提取同一类别不同时间的相似特征, 提升脑电信号跨时间分类.

    $$ \begin{split}{L}_{MMD}=\;&D\left({M}^{s}, \;{M}^{t}\right)=\|\frac{1}{a}\sum _{i=1}^{a}H\left({M}_{i}^{s}\right)\\&-\frac{1}{b}\sum _{i=1}^{b}H\left({M}_{i}^{t}\right)\| \end{split}$$ (2)

    式中H是希尔伯特空间变换; $ {M}^{s} $是源域的特征; $ {M}^{t} $是目标域的特征.

    3.1.3   模型训练及结果评估

    使用SignBrain设备采集800组数据, 模型以80%作为训练集, 10%作为验证集, 10%作为测试集的配比进行训练. 训练好的模型经过优化, 将其封装成独立想象测试软件, SignBrain设备实时采集的脑电想象信号蓝牙上传至软件, 经预处理, 模型计算后, 可在0.5s内输出被试者想象的字母, 在对26个字母进行整体测试发现平均准确度在86.5%, 具体结果见图16. 被试使用SignBrain设备真实想象字母照片如图17所示.

    图 16  26字母分类测试结果
    Fig. 16  26 letter recognition results
    图 17  被试使用设备想象字母
    Fig. 17  Subjects used the device to imagine letters writing
    3.1.4   BP设备想象写字信号对比

    为增加SignBrain与商用BP设备在想象写字信号结果上的对比, 采用相同范式、相同被试、相同模型训练, 使用Brain Products采集的900组数据和使用SignBrain设备采集的800组数据, 分别进行模型训练、结果如图18所示, 实验1为BP分类准确率为81.1%, 实验2为SignBrain设备的分类准确率为86.5%, 由实验1和2可见脑电信号的实际运用场景中, SignBrain设备和Brain Products产品均能达到较好的实验效果.

    图 18  采用BP设备与SignBrain设备想象写字实验模型训练结果
    Fig. 18  Training results of the imaginary writing recognition using BP device and SignBrain device
    3.2.1   高频视觉诱发实验设计

    高频视觉诱发实验要求测试人员佩戴好SignBrain设备, 所有电极的接触阻抗在10 kΩ左右, 屏幕上依次按照A到Z的顺序闪烁26个字母和一个删除键和一个空格键, 频率从8 Hz到26.9 Hz, 以0.7 Hz频率间隔为步长, 1.5 s标记一次, 实验3 s, 休息0.5 s. 该实验模式下测试两组. 所有测试数据经过预处理、分段后、使用eCCA[20] (expanded Canonical Correlation Analysis)从诱发的信号片段中提取出干净的SSVEP成分, 抑制噪声和共模干扰, 最终将整个实验步骤方法集成到在线视觉诱发软件中进行在线测试.

    3.2.2   高频视觉诱发实验结果

    为展示设备在视觉通道上采集诱发信号的准确度, 选用O1采集的视觉诱发信号, 从8 Hz到26.9 Hz中随机选择10.8、13.6、15、20.6、22.7、24.1这些频率点进行FFT, 可发现设备完整保留了诱发信号的频率 (图19). 同时为对比视觉诱发频率与刺激频率的误差, 将上述5个频率点挑选出计算误差 (表4), 发现设备在被试视觉皮层O1通道诱发频率与刺激频率误差小于10%, 诱发频率的误差完全满足步长0.7 Hz的设计. 视觉诱发展示链接: https://pan.cstcloud.cn/s/dKHCh5IoQLU.

    图 19  SignBrain设备6个频率点视觉诱发O1电极记录脑电信号FFT图
    Fig. 19  Demonstrations for the six frequency evoked signals by SSVEP using SignBrain Device
    表 4  视觉皮层O1通道诱发频率与刺激频率的误差
    Table 4  The error between the induced frequency of the O1 channel and the stimulus frequency
    刺激频率 (Hz) 10.813.61520.622.724.1
    实际诱发频率 (Hz) 10.7513.5815.0320.6522.6424.07
    误差 (%) 7.12.84.37.18.64.3
    下载: 导出CSV 
    | 显示表格

    经实验测试, 整体26个字母在该频率区间进行视觉诱发均可以超过95%的准确率. 该实验范式无需在特定环境下进行, 被试佩戴好SignBrain设备即可开始视觉诱发实验, 脑电数据通过低延时的蓝牙发送至上位机软件并在极短时间内完成信号的比对分析, 最终呈现在显示器上. 由此说明, SignBrain设备在脑电信号采集中表现了较高的信噪比, 通信传输延时率低, 可长时间稳定采集脑电信号.

    SignBrain设备结构上设计为爪形, 易于佩戴, 在很多场景及范式上可以高效的完成脑电采集. 数据通过无线蓝牙发送至配套软件系统, 不受具体场地约束.

    设备已在多家医院及单位累计采集超过400例脑电数据, 并对相应任务的数据集分析, 均达到预期实验结果. 本文介绍的26个字母想象范式是受试者在家中佩戴设备进行测试. 字母想象范式实验在侵入式脑电设备上应用较多, 由于微型电极直接接触神经元放电, 信号质量非常高, 可以很轻松取得较高的准确率. 但在非侵入设备上, 外部噪声及头皮外获取信号的影响, 会大大影响信号质量, 非侵入设备难度极大, 需要设备具有更高的分辨率, 信噪比及共模抑制比, 实时分辨的效果还取决于信号传输及处理过程的时间. SignBrain设备采集想象字母的数据, 对其分类, 26个字母中有22个字母的准确率达到80%以上, 有12个字母的准确率达到100%. 可见, SignBrain设备利用16通道电极即可完成想象写字, 具有较高的信噪比.

    本文介绍了团队自主研发的SignBrain可穿戴脑电设备的特点和优势. SignBrain设备轻巧便携, 爪形结构设计确保电极始终贴合头皮, 信号稳定, 使用盐水电极便于在各种场景快速佩戴. 设备具有高信噪比和低噪声, 并在想象字母范式和视觉诱发实验中验证了信号质量, 为后续研究脑电活动信号变化提供了可靠技术支持. 该设备针对快速可穿戴用途设计, 同时脑电性能和安全性均通过医疗级检验, 可在临床疾病诊断、脑机交互、特殊场景的脑认知检测, 以及特殊移动场景下实现快速应用. 关于设备的开发和应用的讨论网站: www. SignBrain.cn, 欢迎访问交流.

    SignBrain项目研发及应用工作的快速推进特别感谢四川省科技计划项目2022YFSY0014 (2022-2024)、中国科学院先导专项(Grant No. QYZDJ-SSW-SMC019)、科技部科技创新2030 - 脑科学与类脑智能项目(Grant No. 2021ZD0200200)支持与资助, 同时也感谢SignBrain项目团队及相关实验医院的协助.

  • 图  1  自主无人系统体系架构发展趋势

    Fig.  1  Architecture development trend of autonomous unmanned systems

    图  2  PaLM-E完成长程任务

    Fig.  2  The PaLM-E completes long range tasks

    图  4  各类人形机器人

    Fig.  4  Various humanoid robots

    图  3  具身智能无人系统关键技术示意图

    Fig.  3  Schematic diagram of key technologies in embodied intelligence unmanned systems

    图  5  具身智能自主无人系统框架示意图及典型应用

    Fig.  5  Framework diagram and typical application of embodied intelligence autonomous unmanned systems

    图  6  具身智能未来研究方向

    Fig.  6  Future research direction of embodied intelligence

    表  1  具身智能模型架构

    Table  1  Embodied intelligence model architecture

    名称 模型参数 响应频率(Hz) 模型架构说明
    SayCan[34] SayCan利用价值函数表示各个技能的可行性, 并由语言模型进行技能评分, 能够兼顾任务需求和机器人技能的可行性
    RT-1[31] 350万 3 RT-1采用13万条机器人演示数据的数据集完成模仿学习训练, 能以97%的成功率执行超过700个语音指令任务
    RoboCat[35] 12亿 10 ~ 20 RoboCat构建了基于目标图像的可迁移机器人操纵框架, 能够实现多个操纵任务的零样本迁移
    PaLM-E[32] 5620亿 5 ~ 6 PaLM-E构建了当时最大的具身多模态大模型, 将机器人传感器模态融入语言模型, 建立了端到端的训练框架
    RT-2[33] 550亿 1 ~ 3 RT-2首次构建了视觉−语言−动作的模型, 在多个具身任务上实现了多阶段的语义推理
    VoxPoser[36] VoxPoser利用语言模型生成关于当前环境的价值地图, 并基于价值地图进行动作轨迹规划, 实现了高自由度的环境交互
    RT-2-X[37] 550亿 1 ~ 3 RT-2-X构建了提供标准化数据格式、交互环境和模型的数据集, 包含527种技能和16万个任务
    下载: 导出CSV
  • [1] Gupta A, Savarese S, Ganguli S, Li F F. Embodied intelligence via learning and evolution. Nature Communications, 2021, 12(1): Article No. 5721 doi: 10.1038/s41467-021-25874-z
    [2] 孙长银, 穆朝絮, 柳文章, 王晓. 自主无人系统的具身认知智能框架. 科技导报, 2024, 42(12): 157−166

    Sun Chang-Yin, Mu Chao-Xu, Liu Wen-Zhang, Wang Xiao. Embodied cognitive intelligence framework of unmanned autonomous systems. Science & Technology Review, 2024, 42(12): 157−166
    [3] Wiener N. Cybernetics or Control and Communication in the Animal and the Machine. Cambridge: MIT Press, 1961.
    [4] Turing A M. Computing Machinery and Intelligence. Oxford: Oxford University Press, 1950.
    [5] 王耀南, 安果维, 王传成, 莫洋, 缪志强, 曾凯. 智能无人系统技术应用与发展趋势. 中国舰船研究, 2022, 17(5): 9−26

    Wang Yao-Nan, An Guo-Wei, Wang Chuan-Cheng, Mo Yang, Miao Zhi-Qiang, Zeng Kai. Technology application and development trend of intelligent unmanned system. Chinese Journal of Ship Research, 2022, 17(5): 9−26
    [6] Kaufmann E, Bauersfeld L, Loquercio A, Müller M, Koltun V, Scaramuzza D. Champion-level drone racing using deep reinforcement learning. Nature, 2023, 620(7976): 982−987 doi: 10.1038/s41586-023-06419-4
    [7] Feng S, Sun H W, Yan X T, Zhu H J, Zou Z X, Shen S Y, et al. Dense reinforcement learning for safety validation of autonomous vehicles. Nature, 2023, 615(7953): 620−627 doi: 10.1038/s41586-023-05732-2
    [8] 张鹏飞, 程文铮, 米江勇, 和烨龙, 李亚文, 王力金. 反无人机蜂群关键技术研究现状及展望. 火炮发射与控制学报, DOI: 10.19323/j.issn.1673-6524.202311017

    Zhang Peng-Fei, Cheng Wen-Zheng, Mi Jiang-Yong, He Ye-Long, Li Ya-Wen, Wang Li-Jin. Research status and prospect of key technologies for counter UAV swarm. Journal of Gun Launch & Control, DOI: 10.19323/j.issn.1673-6524.202311017
    [9] 张琳. 美军反无人机系统技术新解. 坦克装甲车辆, 2024(11): 22−29

    Zhang Lin. New insights into U.S. military anti-drone system technology. Tank & Armoured Vehicle, 2024(11): 22−29
    [10] 董昭荣, 赵民, 姜利, 王智. 异构无人系统集群自主协同关键技术综述. 遥测遥控, 2024, 45(4): 1−11 doi: 10.12347/j.ycyk.20240314001

    Dong Zhao-Rong, Zhao Min, Jiang Li, Wang Zhi. Review on key technologies of autonomous collaboration in heterogeneous unmanned system cluster. Journal of Telemetry, Tracking and Command, 2024, 45(4): 1−11 doi: 10.12347/j.ycyk.20240314001
    [11] 江碧涛, 温广辉, 周佳玲, 郑德智. 智能无人集群系统跨域协同技术研究现状与展望. 中国工程科学, 2024, 26(1): 117−126 doi: 10.15302/J-SSCAE-2024.01.015

    Jiang Bi-Tao, Wen Guang-Hui, Zhou Jia-Ling, Zheng De-Zhi. Cross-domain cooperative technology of intelligent unmanned swarm systems: Current status and prospects. Strategic Study of CAE, 2024, 26(1): 117−126 doi: 10.15302/J-SSCAE-2024.01.015
    [12] Firoozi R, Tucker J, Tian S, Majumdar A, Sun J K, Liu W Y, et al. Foundation models in robotics: Applications, challenges, and the future. arXiv: 2312.07843, 2023.
    [13] 兰沣卜, 赵文博, 朱凯, 张涛. 基于具身智能的移动操作机器人系统发展研究. 中国工程科学, 2024, 26(1): 139−148 doi: 10.15302/J-SSCAE-2024.01.010

    Lan Feng-Bo, Zhao Wen-Bo, Zhu Kai, Zhang Tao. Development of mobile manipulator robot system with embodied intelligence. Strategic Study of CAE, 2024, 26(1): 139−148 doi: 10.15302/J-SSCAE-2024.01.010
    [14] 刘华平, 郭迪, 孙富春, 张新钰. 基于形态的具身智能研究: 历史回顾与前沿进展. 自动化学报, 2023, 49(6): 1131−1154

    Liu Hua-Ping, Guo Di, Sun Fu-Chun, Zhang Xin-Yu. Morphology-based embodied intelligence: Historical retrospect and research progress. Acta Automatica Sinica, 2023, 49(6): 1131−1154
    [15] 张钹, 朱军, 苏航. 迈向第三代人工智能. 中国科学: 信息科学, 2020, 50(9): 1281−1302 doi: 10.1360/SSI-2020-0204

    Zhang Ba, Zhu Jun, Su Hang. Toward the third generation of artificial intelligence. SCIENTIA SINICA Informationis, 2020, 50(9): 1281−1302 doi: 10.1360/SSI-2020-0204
    [16] Radford A, Narasimhan K, Salimans T, Sutskever I. Improving language understanding by generative pre-training [Online], available: https://gwern.net/doc/www/s3-us-west-2.amazonaws.com/d73fdc5ffa8627bce44dcda2fc012da638ffb158.pdf, January 4, 2025
    [17] Devlin J, Chang M W, Lee K, Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minnesota, USA: ACL, 2018. 4171−4186
    [18] Radford A, Wu J, Child R, Luan D, Amodei D, Sutskever I. Language models are unsupervised multitask learners [Online], available: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf, January 4, 2025
    [19] Brown T B, Mann B, Ryder N, Subbiah M, Kaplan J, Dhariwal P, et al. Language models are few-shot learners. arXiv: 2005.14165, 2020.
    [20] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, et al. Attention is all you need. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: ACM, 2017. 6000−6010
    [21] Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X H, Unterthiner T, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv: 2010.11929, 2021.
    [22] He K M, Chen X L, Xie S N, Li Y H, Dollár P, Girshick R, et al. Masked autoencoders are scalable vision learners. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 15979−15988
    [23] Liu Z, Lin Y T, Cao Y, Hu H, Wei Y X, Zhang Z. Swin Transformer: Hierarchical vision Transformer using shifted windows. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 9992−10002
    [24] Touvron H, Lavril T, Izacard G, Martinet X, Lachaux M A, Lacroix T, et al. LLaMA: Open and efficient foundation language models. arXiv: 2302.13971, 2023.
    [25] Kim W, Son B, Kim I. ViLT: Vision-and-language Transformer without convolution or region supervision. arXiv: 2102.03334, 2021.
    [26] Li J N, Li D X, Xiong C M, Hoi S C H. BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In: Proceedings of the 39th International Conference on Machine Learning. Baltimore, USA: ICML, 2022. 12888−12900
    [27] Yu J H, Wang Z R, Vasudevan V, Yeung L, Seyedhosseini M, Wu Y H. CoCa: Contrastive captioners are image-text foundation models. arXiv: 2205.01917, 2022.
    [28] Bao H B, Wang W H, Dong L, Wei F R. VL-BEiT: Generative vision-language pretraining. arXiv: 2206.01127, 2022.
    [29] Radford A, Kim J W, Hallacy C, Ramesh A, Goh G, Agarwal S, et al. Learning transferable visual models from natural language supervision. arXiv: 2103.00020, 2021.
    [30] Ouyang L, Wu J, Jiang X, Almeida D, Wainwright C L, Mishkin P, et al. Training language models to follow instructions with human feedback. arXiv: 2203.02155, 2022.
    [31] Brohan A, Brown N, Carbajal J, Chebotar Y, Dabis J, Finn C, et al. RT-1: Robotics Transformer for real-world control at scale. arXiv: 2212.06817, 2022.
    [32] Driess D, Xia F, Sajjadi M S M, Lynch C, Chowdhery A, Ichter B, et al. PaLM-E: An embodied multimodal language model. In: Proceedings of the 40th International Conference on Machine Learning. Honolulu, USA: ICML, 2023. 8469−8488
    [33] Brohan A, Brown N, Carbajal J, Chebotar Y, Chen X, Choromanski K, et al. RT-2: Vision-language-action models transfer web knowledge to robotic control. arXiv: 2307.15818, 2023.
    [34] Ichter B, Brohan A, Chebotar Y, Finn C, Hausman K, Herzog A, et al. Do as I can, not as I say: Grounding language in robotic affordances. In: Proceedings of the 6th Conference on Robot Learning. Auckland, New Zealand: PMLR, 2022. 287−318
    [35] Bousmalis K, Vezzani G, Rao D, Devin C, Lee A X, Bauza M, et al. RoboCat: A self-improving foundation agent for robotic manipulation. arXiv: 2306.11706, 2023.
    [36] Huang W L, Wang C, Zhang R H, Li Y Z, Wu J J, Li F F. VoxPoser: Composable 3D value maps for robotic manipulation with language models. In: Proceedings of the 7th Conference on Robot Learning. Atlanta, USA: PMLR, 2023. 540−562
    [37] O'Neill A, Rehman A, Gupta A, Maddukuri A, Gupta A, Padalkar A, et al. Open X-embodiment: Robotic learning datasets and RT-X models. arXiv: 2310.08864, 2024.
    [38] Zeng F L, Gan W S, Wang Y H, Liu N, Yu P S. Large language models for robotics: A survey. arXiv: 2311.07226, 2023.
    [39] Bommasani R, Hudson D A, Adeli E, Altman E, Arora S, von Arx S, et al. On the opportunities and risks of foundation models. arXiv: 2108.07258, 2021.
    [40] Wang W H, Bao H B, Dong L, Bjorck J, Peng Z L, Liu Q, et al. Image as a foreign language: BEiT pretraining for all vision and vision-language tasks. arXiv: 2208.10442, 2022.
    [41] Bao H B, Wang W H, Dong L, Liu Q, Mohammed O K, Aggarwal K, et al. VLMo: Unified vision-language pre-training with mixture-of-modality-experts. arXiv: 2111.02358, 2022.
    [42] Chen F L, Zhang D Z, Han M L, Chen X Y, Shi J, Xu S, et al. VLP: A survey on vision-language pre-training. Machine Intelligence Research, 2023, 20(1): 38−56 doi: 10.1007/s11633-022-1369-5
    [43] Peng F, Yang X S, Xiao L H, Wang Y W, Xu C S. SgVA-CLIP: Semantic-guided visual adapting of vision-language models for few-shot image classification. IEEE Transactions on Multimedia, 2024, 26: 3469−3480 doi: 10.1109/TMM.2023.3311646
    [44] Li L H, Zhang P C, Zhang H T, Yang J W, Li C Y, Zhong Y W, et al. Grounded language-image pre-training. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 10955−10965
    [45] Liu S L, Zeng Z Y, Ren T H, Li F, Zhang H, Yang J, et al. Grounding DINO: Marrying DINO with grounded pre-training for open-set object detection. arXiv: 2303.05499, 2023.
    [46] Minderer M, Gritsenko A A, Stone A, Neumann M, Weissenborn D, Dosovitskiy A, et al. Simple open-vocabulary object detection. In: Proceedings of the 17th European Conference on Computer Vision. Tel Aviv, Israel: Springer, 2022. 728−755
    [47] Xu J R, de Mello S, Liu S F, Byeon W, Breuel T, Kautz J, et al. GroupViT: Semantic segmentation emerges from text supervision. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 18113−18123
    [48] Li B Y, Weinberger K Q, Belongie S J, Koltun V, Ranftl R. Language-driven semantic segmentation. arXiv: 2201.03546, 2022.
    [49] Ghiasi G, Gu X Y, Cui Y, Lin T Y. Scaling open-vocabulary image segmentation with image-level labels. In: Proceedings of the 17th European Conference on Computer Vision. Tel Aviv, Israel: Springer, 2022. 540−557
    [50] Zhou C, Loy C C, Dai B. Extract free dense labels from clip. In: Proceedings of the 17th European Conference on Computer Vision. Tel Aviv, Israel: Springer, 2022. 696−712
    [51] Kirillov A, Mintun E, Ravi N, Mao H Z, Rolland C, Gustafson L, et al. Segment anything. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France: IEEE, 2023. 3992−4003
    [52] Wu Z R, Song S R, Khosla A, Yu F, Zhang L G, Tang X O, et al. 3D ShapeNets: A deep representation for volumetric shapes. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 1912−1920
    [53] Kerr J, Kim C M, Goldberg K, Kanazawa A, Tancik M. LERF: Language embedded radiance fields. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France: IEEE, 2023. 19672−19682
    [54] Shen W, Yang G, Yu A L, Wong J, Kaelbling L P, Isola P. Distilled feature fields enable few-shot language-guided manipulation. In: Proceedings of the 7th Conference on Robot Learning. Atlanta, USA: PMLR, 2023. 405−424
    [55] Gadre S Y, Ehsani K, Song S R, Mottaghi R. Continuous scene representations for embodied AI. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 14829−14839
    [56] Shafiullah N M, Paxton C, Pinto L, Chintala S, Szlam A. CLIP-fields: Weakly supervised semantic fields for robotic memory. arXiv: 2210.05663, 2022.
    [57] Huang C G, Mees O, Zeng A, Burgard W. Visual language maps for robot navigation. In: Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). London, UK: IEEE, 2023. 10608−10615
    [58] Gan Z, Li L J, Li C Y, Wang L J, Liu Z C, Gao J F. Vision-language pre-training: Basics, recent advances, and future trends. Foundations and Trends® in Computer Graphics and Vision, 2022, 14(3−4): 163−352
    [59] Huang W L, Xia F, Xiao T, Chan H, Liang J, Florence P, et al. Inner monologue: Embodied reasoning through planning with language models. In: Proceedings of the 6th Conference on Robot Learning. Auckland, New Zealand: PMLR, 2022. 1769−1782
    [60] Sun Y W, Zhang K, Sun C Y. Model-based transfer reinforcement learning based on graphical model representations. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(2): 1035−1048 doi: 10.1109/TNNLS.2021.3107375
    [61] Hao S, Gu Y, Ma H D, Hong J, Wang Z, Wang D, et al. Reasoning with language model is planning with world model. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Singapore: ACL, 2023. 8154−8173
    [62] Zha L H, Cui Y C, Lin L H, Kwon M, Arenas M G, Zeng A, et al. Distilling and retrieving generalizable knowledge for robot manipulation via language corrections. In: Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). Yokohama, Japan: IEEE, 2024. 15172−15179
    [63] Hassanin M, Khan S, Tahtali M. Visual affordance and function understanding: A survey. ACM Computing Surveys, 2022, 54(3): Article No. 47
    [64] Luo H C, Zhai W, Zhang J, Cao Y, Tao D C. Learning visual affordance grounding from demonstration videos. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(11): 16857−16871 doi: 10.1109/TNNLS.2023.3298638
    [65] Mo K C, Guibas L, Mukadam M, Gupta A, Tulsiani S. Where2Act: From pixels to actions for articulated 3D objects. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 6793−6803
    [66] Geng Y R, An B S, Geng H R, Chen Y P, Yang Y D, Dong H. RLAfford: End-to-end affordance learning for robotic manipulation. In: Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). London, UK: IEEE, 2023. 5880−5886
    [67] Kolve E, Mottaghi R, Han W, VanderBilt E, Weihs L, Herrasti A, et al. AI2-THOR: An interactive 3D environment for visual AI. arXiv: 1712.05474, 2017.
    [68] Gan C, Schwartz J, Alter S, Mrowca D, Schrimpf M, Traer J, et al. ThreeDWorld: A platform for interactive multi-modal physical simulation. arXiv: 2007.04954, 2020.
    [69] Deitke M, VanderBilt E, Herrasti A, Weihs L, Salvador J, Ehsani K, et al. ProcTHOR: Large-scale embodied AI using procedural generation. arXiv: 2206.06994, 2022.
    [70] Anderson P, Wu Q, Teney D, Bruce J, Johnson M, Sünderhauf N, et al. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 3674−3683
    [71] Wu Q, Wu C J, Zhu Y X, Joo J. Communicative learning with natural gestures for embodied navigation agents with human-in-the-scene. In: Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Prague, Czech Republic: IEEE, 2021. 4095−4102
    [72] Duan J F, Yu S, Tan H L, Zhu H Y, Tan C. A survey of embodied AI: From simulators to research tasks. IEEE Transactions on Emerging Topics in Computational Intelligence, 2022, 6(2): 230−244 doi: 10.1109/TETCI.2022.3141105
    [73] Shah D, Osinski B, Levine S, Levine S. LM-Nav: Robotic navigation with large pre-trained models of language, vision, and action. In: Proceedings of the 6th Conference on Robot Learning. Auckland, New Zealand: PMLR, 2022. 492−504
    [74] Gadre S Y, Wortsman M, Ilharco G, Schmidt L, Song S R. CoWs on pasture: Baselines and benchmarks for language-driven zero-shot object navigation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, Canada: IEEE, 2023. 23171−23181
    [75] Carion N, Massa F, Synnaeve G, Usunier N, Kirillov A, Zagoruyko S. End-to-end object detection with Transformers. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 213−229
    [76] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. In: Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: ACM, 2015. 91−99
    [77] Jiang P Y, Ergu D, Liu F Y, Cai Y, Ma B. A review of Yolo algorithm developments. Procedia Computer Science, 2022, 199: 1066−1073 doi: 10.1016/j.procs.2022.01.135
    [78] Cheng H K, Alexander G S. XMem: Long-term video object segmentation with an Atkinson-Shiffrin memory model. In: Proceedings of the 17th European Conference on Computer Vision. Tel Aviv, Israel: Springer, 2022. 640−658
    [79] Zhu X Y, Zhang R R, He B W, Guo Z Y, Zeng Z Y, Qin Z P, et al. PointCLIP V2: Prompting CLIP and GPT for powerful 3D open-world learning. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France: IEEE, 2023. 2639−2650
    [80] Muzahid A A M, Wan W G, Sohel F, Wu L Y, Hou L. CurveNet: Curvature-based multitask learning deep networks for 3D object recognition. IEEE/CAA Journal of Automatica Sinica, 2021, 8(6): 1177−1187 doi: 10.1109/JAS.2020.1003324
    [81] Xue L, Gao M F, Xing C, Martín-Martín R, Wu J J, Xiong C M, et al. ULIP: Learning a unified representation of language, images, and point clouds for 3D understanding. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, Canada: IEEE, 2023. 1179−1189
    [82] Qi C R, Yi L, Su H, Guibas L J. PointNet++: Deep hierarchical feature learning on point sets in a metric space. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: ACM, 2017. 5105−5114
    [83] Ma X, Qin C, You H X, Ran H X, Fu Y. Rethinking network design and local geometry in point cloud: A simple residual MLP framework. arXiv: 2202.07123, 2022.
    [84] Mildenhall B, Srinivasan P P, Tancik M, Barron J T, Ramamoorthi R, Ng R. NeRF: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM, 2022, 65(1): 99−106 doi: 10.1145/3503250
    [85] Zeng A, Attarian M, Ichter B, Choromanski K M, Wong A, Welker S, et al. Socratic models: Composing zero-shot multimodal reasoning with language. arXiv: 2204.00598, 2022.
    [86] Li B Z, Nye M, Andreas J. Implicit representations of meaning in neural language models. arXiv: 2106.00737, 2021.
    [87] Huang W L, Abbeel P, Pathak D, Mordatch I. Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. In: Proceedings of the 39th International Conference on Machine Learning. Baltimore, USA: PMLR, 2022. 9118−9147
    [88] Liu Y H, Ott M, Goyal N, Du J F, Joshi M, Chen D Q, et al. RoBERTa: A robustly optimized BERT pretraining approach. arXiv: 1907.11692, 2019.
    [89] Liang J, Huang W L, Xia F, Xu P, Hausman K, Ichter B, et al. Code as policies: Language model programs for embodied control. In: Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). London, UK: IEEE, 2023. 9493−9500
    [90] Du Y L, Yang M, Florence P, Xia F, Wahid A, Ichter B, et al. Video language planning. arXiv: 2310.10625, 2023.
    [91] Liang J, Xia F, Yu W H, Zeng A, Arenas M G, Attarian M, et al. Learning to learn faster from human feedback with language model predictive control. arXiv: 2402.11450, 2024.
    [92] Lynch C, Sermanet P. Language conditioned imitation learning over unstructured data. arXiv: 2005.07648, 2020.
    [93] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation. In: Proceedings of the 18th International Conference on Medical Image Computing and Computer-assisted Intervention—MICCAI 2015. Munich, Germany: Springer, 2015. 234−241
    [94] Mo K C, Qin Y Z, Xiang F B, Su H, Guibas L J. O2O-Afford: Annotation-free large-scale object-object affordance learning. In: Proceedings of the 5th Conference on Robot Learning. London, UK: PMLR, 2021. 1666−1677
    [95] Savva M, Kadian A, Maksymets O, Zhao Y L, Wijmans E, Jain B, et al. Habitat: A platform for embodied AI research. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019. 9338−9346
    [96] Xia F, Shen W B, Li C S, Kasimbeg P, Tchapmi M E, Toshev A, et al. Interactive Gibson benchmark: A benchmark for interactive navigation in cluttered environments. IEEE Robotics and Automation Letters, 2020, 5(2): 713−720 doi: 10.1109/LRA.2020.2965078
    [97] Anderson P, Chang A, Chaplot D S, Dosovitskiy A, Gupta S, Koltun V, et al. On evaluation of embodied navigation agents. arXiv: 1807.06757, 2018.
    [98] Paul S, Roy-Chowdhury A K, Cherian A. AVLEN: Audio-visual-language embodied navigation in 3D environments. arXiv: 2210.07940, 2022.
    [99] Tan S N, Xiang W L, Liu H P, Guo D, Sun F C. Multi-agent embodied question answering in interactive environments. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 663−678
    [100] Majumdar A, Aggarwal G, Devnani B, Hoffman J, Batra D. ZSON: Zero-shot object-goal navigation using multimodal goal embeddings. arXiv: 2206.12403, 2023.
    [101] Zhou G Z, Hong Y C, Wu Q. NavGPT: Explicit reasoning in vision-and-language navigation with large language models. In: Proceedings of the 38th AAAI Conference on Artificial Intelligence. Washington, USA: AAAI, 2024. 7641−7649
    [102] Shah D, Eysenbach B, Kahn G, Rhinehart N, Levine S. ViNG: Learning open-world navigation with visual goals. In: Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). Xi'an, China: IEEE, 2021. 13215−13222
    [103] Wen G H, Zheng W X, Wan Y. Distributed robust optimization for networked agent systems with unknown nonlinearities. IEEE Transactions on Automatic Control, 2023, 68(9): 5230−5244 doi: 10.1109/TAC.2022.3216965
  • 加载中
图(6) / 表(1)
计量
  • 文章访问数:  1869
  • HTML全文浏览量:  666
  • PDF下载量:  531
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-06-30
  • 录用日期:  2024-09-27
  • 网络出版日期:  2024-10-23

目录

/

返回文章
返回