具身智能研究的关键问题: 自主感知、行动与进化

沈甜雨 陶子锐 王亚东 张庭祯 刘宇航 王兴霞 杨静 李志伟 陈龙 王坤峰 王飞跃

具身智能研究的关键问题: 自主感知、行动与进化

基金项目: 国家自然科学基金项目(No.62302047; No.62076020), 中央高校基本科研业务费专项资金资助(buctrc202413)资助

    沈甜雨:北京化工大学信息科学与技术学院副教授. 2021年获得中国科学院自动化研究所工学博士学位. 主要研究方向为智能感知与智能机器人系统. E-mail: tianyu.shen@buct.edu.cn

    陶子锐:北京化工大学信息科学与技术学院硕士研究生. 2023年获北京化工大学学士学位. 主要研究方向为多任务学习和增量学习.E-mail: taozirui@126.com

    王亚东:北京化工大学信息科学与技术学院博士研究生. 主要研究方向为计算机视觉与智能交通系统.E-mail: 2021400212@buct.edu.cn

    张庭祯:北京化工大学信息科学与技术学院硕士研究生. 2018年获北京化工大学学士学位. 主要研究方向为计算机视觉与具身智能.E-mail: ztz1733565287@163.com

    刘宇航:中国科学院自动化研究所博士研究生. 2021年获清华大学学士学位. 主要研究方向为三维感知和具身智能.E-mail: liuyuhang2021@ia.ac.cn

    王兴霞:中国科学院自动化研究所博士研究生. 2021 年获得南开大学工学硕士学位. 主要研究方向为平行智能, 平行油田, 故障诊断, 多智能体系统.E-mail: wangxingxia2022@ia.ac.cn

    杨静:中国科学院自动化研究所博士研究生. 2020年获得北京化工大学学士学位. 主要研究方向为平行制造, 社会制造, 人工智能和社会物理信息系统.E-mail: yangjing2020@ia.ac.cn

    李志伟:北京化工大学信息科学与技术学院副教授. 2020年获中国矿业大学(北京)博士学位. 主要研究方向为自动驾驶, 具身智能机器人, 视觉语言大模型.E-mail: lizw@buct.edu.cn

    陈龙:中国科学院自动化研究所研究员. 2013 年获得武汉大学博士学位. 主要研究方向为自动驾驶, 机器人, 智慧矿山和平行智能. E-mail: long.chen@ia.ac.cn

    王坤峰:北京化工大学信息科学与技术学院教授. 主要研究方向为计算机视觉, 多模态感知和智能无人系统. 本文通信作者. E-mail: wangkf@buct.edu.cn

    王飞跃:中国科学院自动化研究所研究员. 主要研究方向为智能系统和复杂系统的建模, 分析与控制.E-mail: feiyue.wang@ia.ac.cn

Key Problems of Embodied Intelligence: Autonomous Perception, Action, and Evolution

Funds: Supported by National Natural Science Foundation of China Under Grant 62302047 and 62076020, Fundamental Research Funds for the Central Universities (buctrc202413)
    Author Bio:

    SHEN Tian-Yu Associate Professor at College of Information Science and Technology, Beijing University of Chemical Technology. She received the Ph.D. degree from the Institute of Automation, Chinese Academy of Sciences in 2021. Her research interest covers intelligent perception and intelligent unmanned systems

    TAO Zi-Rui Master candidate at the college of Information Science and Technology, Beijing University of Chemical Technology. He received the B.S. degree from Beijing University of Chemical Technology in 2023. His research interest covers multi-task learning and incremental learning

    WANG Ya-Dong Ph.D. candidate at the College of Information Science and Technology, Beijing University of Chemical Technology. His research interest covers computer vision and intelligent transportation systems

    ZHANG Ting-Zhen Master Candidate at the College of Information Science and Technology, Beijing University of Chemical Technology, and received the B.S. degree from Beijing University of Chemical Technology in 2022. His research interest covers computer vision and embodied intelligence

    LIU Yu-Hang Ph.D. candidate at Institute of Automation, Chinese Academy of Sciences. He received the B.S. degree from Tsinghua University in 2021. His research interest covers 3D perception and embodied artificial intelligence

    WANG Xing-Xia Ph. D. candidate at Institute of Automation, Chinese Academy of Sciences. She received her master degree in engineering from Nankai University in 2021. Her research interest covers parallel control, parallel oilfields, and multi-agent systems

    YANG Jing Ph.D. candidate at Institute of Automation, Chinese Academy of Sciences. She received the B.S. degree from Beijing University of Chemical Technology in 2020. Her research interest covers parallel manufacturing, social manufacturing, artificial intelligence, and cyber-physical-social systems

    LI Zhi-Wei Associate Professor at College of Information Science and Technology, Beijing University of Chem- ical Technology. He received the Ph.D. degree from China University of Mining and Technology (Beijing) in 2020. His research interest covers autonomous driving, embodied intelligent robots, and large visual-language models

    CHEN Long Professor at Institute of Automation, Chinese Academy of Sciences.He received the Ph.D. degree from Wuhan University in 2013. His research interest covers autonomous driving, robotics, smart mining, and parallel intelligence

    WANG Kun-Feng Professor at the College of Information Science and Technology, Beijing University of Chemical Technology. His research interest covers computer vision, multi-modal perception, and intelligent unmanned systems. Corresponding author of this paper

    WANG Fei-Yue Professor at Institute of Automation, Chinese Academy of Sciences. His research interest covers modeling, analysis, and control of intelligent systems and complex systems

  • 摘要: 具身智能强调了大脑、身体及环境三者的相互作用, 旨在基于机器与物理世界的交互, 创建软硬件结合、可自主学习进化的智能体. 当前, 机器学习、机器人学、认知科学等多学科技术的快速发展极大地推动了具身智能的研究与应用. 不同于已有的具身智能文献更多从技术和方法分类的角度入手, 本文以具身智能在研究和应用过程中面临的关键挑战为角度切入, 分析了具身智能研究的一般性框架, 围绕具身感知与执行、具身学习与进化两个方面提出了具体的研究思路, 并针对其中涉及的关键问题详细梳理了相关技术及研究进展. 此外, 本文以移动机器人、仿生机器人、平行机器人三方面应用为例, 介绍了具身智能在感知与理解、控制与决策、交互与学习等方面给实际机器人系统设计带来的启发. 最后, 对具身智能的未来发展方向进行了展望, 探索了虚实融合数据智能、基础模型与基础智能、数字孪生与平行智能在其中的重要作用和应用潜力, 希望为相关领域学者和从业人员提供一定的借鉴和思路. 论文相关项目详见https://github.com/BUCT-IUSRC/Survey__EmbodiedAI.
  • 图  1  具身智能与智能体发展历程

    Fig.  1  A historical overview of embodied intelligence and agent development

    图  2  具身智能研究的一般性框架图

    Fig.  2  General framework diagram of embodied intelligence research

    图  3  “感知-模拟-执行”一体化机制框架

    Fig.  3  The framework of the integrated perception-simulation-execution mechanism

    图  4  典型的端到端自动驾驶框架图[18]

    Fig.  4  Typical end-to-end autonomous driving framework[18]

    图  5  典型的多模态融合感知框架图[19]

    Fig.  5  Typical multi-modal perception framework[19]

    图  6  具身智能进化与学习框架

    Fig.  6  The research framework of Embodied Intelligence Evolution and Learning

    图  7  EWC方法梯度下降方向的可视化图[71]

    Fig.  7  Visualization of gradient descent direction of EWC method[71]

    图  8  蒸馏损失POD通过约束中间层输出防止模型过度漂移, 从而避免灾难性遗忘现象发生[78]

    Fig.  8  The distillation loss POD prevent excessive model drift by constraining intermediate outputs, thereby avoiding catastrophic forgetting phenomena[78]

    图  9  以观察图像和目标图像为输入的执行器-评价器网络结构[94]

    Fig.  9  An actor-critic model with observation images and target images as inputs[94]

    图  10  NerveNet从每个节点的观测向量中获取信息, 通过多次计算相邻节点间的信息更新节点的隐藏状态, 最后在输出模型中收集每个控制器的输出形成优化策略[96]

    Fig.  10  NerveNet fetches the information from the observation vectors of each node, updates the hidden state of the nodes by calculating the information between adjacent nodes multiple times, and finally collects the output of each controller in the output model to form an optimization strategy[96]

    图  11  通过使用学习到的Q函数和策略网络进行评估优化, 有效地减少了优化计算过程中代表物理原型的参数量[99]

    Fig.  11  By using the learned Q- and policy network for evaluation and optimization, the number of parameters representing the physical prototype in the optimization calculation process has been effectively reduced[99]

    图  12  具身智能增强的机器人系统研究框架

    Fig.  12  The research framework of robot systems with enhanced embodied intelligence

    图  13  具身智能增强的自动驾驶系统框架

    Fig.  13  The framework of auto drive system with enhanced intelligence

    图  14  典型的仿生机器人

    Fig.  14  Typical bionic robots

    图  15  平行机器人框架[143]

    Fig.  15  The framework of parallel robot[143]

    表  1  具身智能研究现状

    Table  1  The current status of embodied intelligence research

    名称 年份 特点 优劣
    BigDog 2009 由波士顿动力公司制造, 能够在崎岖不平的地形上行走, 并保持稳定, 展示了在复杂环境中移动的能力 具有强大的越野能力和高负载能力, 能适应复杂环境, 但采用噪音较大的内燃机动力源
    Atlas 2013 由波士顿动力公司制造, 具备高度灵活性和稳定性的人形机器人, 能够进行跑步、跳跃和攀爬等复杂动作, 标志着人形机器人在运动控制和灵活性方面的显著进步 具备高度灵活性和稳定性, 能够执行复杂动作. 但开发和制造成本较高
    DQN算法 2014 DeepMind公司开发的DQN(Deep Q-Network)算法首次将深度学习与强化学习相结合, 使智能体在多种视频游戏中超越人类表现. 这一算法为具身智能提供了新的学习和决策方法 可在无监督环境中通过与环境的互动进行学习, 提高了适应性. 但需要大量数据和计算资源进行训练, 运行成本高
    AlphaGo 2016 DeepMind的AlphaGo战胜了围棋世界冠军李世石, 这一里程碑事件展示了智能体在复杂策略游戏中的超人表现, 推动了具身智能在复杂决策问题上的研究 结合深度学习和蒙特卡罗树搜索, 实现高效决策和自我优化. 但高计算成本和领域局限性限制了其广泛应用的可能
    Walker 2018 优必选公司发布了Walker机器人, 这是一款双足仿人服务机器人, 展示了在家居和服务领域的应用潜力 具备双足行走能力和多功能性, 但高成本和续航时间有限, 限制了长时间工作和普及应用
    Stretch 2021 波士顿动力公司推出的Stretch机器人, 专为仓库操作设计, 展示了在物流和仓储领域的巨大应用前景 专为仓库操作设计, 提升了仓库内搬运任务的效率. 但泛化到其他领域工作的能力较低
    Optimus 2024 特斯拉公司发布了Optimus人形机器人旨在解决劳动力短缺问题, 展示了未来具身智能在生产和日常生活中的广泛应用潜力 具备高度自主性和广泛应用前景, 但高成本和复杂技术性限制了普及性
