世界电信日特别策划丨当AI有了“身体”,将如何改变生活?

830448.png

写在前面:

当今正处在科技迅猛发展的时代,人工智能技术的应用与创新已经渗透到各个领域,并为人类的生活与工作带来了深远的影响。“具身智能”是人工智能与物理实体结合的产物,正逐渐成为推动科技发展和产业变革的重要力量。今天是世界电信日,科普中国联合中国移动科学技术协会特别策划“具身智能”系列内容,为您详细解读。

(一)背景篇

具身智能(Embodied Artificial Intelligence, EAI)是人工智能领域的一个重要分支,其核心理念是能够感知环境并采取行动以实现特定目标的自主实体(即为智能体),通过与物理环境的交互来实现智能行为。简单地说,是强调智能行为需要通过身体与环境的交互来实现,而不仅仅依赖“大脑”的运算。正如著名哲学家梅洛-庞蒂所说:“身体是我们拥有世界的方式。”类比刚出生的婴儿认识世界,不是仅仅通过大脑来思考,而是用眼睛去看、用耳朵去听、用手去触摸,通过与外部环境的互动来获取信息,从而产生智能行为。联想一下科幻电影里一些让人屏息的瞬间,比如《银翼杀手2049》中的“复制人K”,他的每一次呼吸、每一次触摸都承载着对世界的感知;《机械姬》的实验室里,艾娃透过玻璃观察人类时,她的摄像头不仅是眼睛,更是穿透人性迷雾的棱镜,当她的机械手指轻轻触碰镜面,震颤的不仅是传感器,更是一种渴望被世界接纳的生命信号;而在《超能陆战队》的大白身上,它圆滚滚的身体不仅是医疗扫描仪的载体,更通过笨拙的拥抱传递治愈的力量;以及《终结者》中“T-800”从火焰中走出的震撼画面......具身智能将科幻的浪漫注入金属骨骼,让这些逐渐可以成为现实。

图片1.png

图1 电影《机械姬》剧照(图源:网络)

基本概念

根据中国计算机学会(CCF)《具身智能》中的定义,具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性[2]。人形机器人作为具身智能的典型代表,被视为实现具身智能的最佳载体之一。但是,并非所有具身智能系统都必须采用人形机器人的形态。具身智能的实现方式多种多样,可以根据具体任务和环境需求选择合适的智能实体形态。其核心思想在于:智能并非孤立于大脑或算法,而是身体形态、运动能力与环境动态耦合的涌现性结果[3]。智能体通过与环境的持续交互来实现智能行为。智能体的身体、感知系统和环境之间的相互作用是其智能行为的基础。

基本特征

身体与环境的耦合性。具身智能体与其环境之间存在紧密的耦合关系。智能体的行为受到其身体结构和环境特性的共同影响,智能行为是身体与环境相互作用的结果。身体不仅是智能的载体,更是认知的构成部分,强调身体与环境的交织共生。例如传统AI(如AlphaGo)依赖离线训练数据,而具身智能(如波士顿动力Atlas)通过身体运动实时生成数据。

感知、行动与认知的循环交互。具身智能强调感知、行动和认知之间的动态循环关系。智能体通过感知环境来指导行动,行动的结果又反馈给感知系统,进而影响认知过程。这一循环交互使得智能体能够适应复杂多变的环境。例如自动驾驶汽车需融合实时路况、天气与行人意图,而非仅依赖高精地图。

自适应性和生成性。具身智能体能够通过自适应性调整其行为,以应对环境中的不确定性和变化。智能通过行动主动塑造环境,而非被动反映世界。例如,机器人推开障碍物开辟路径,或通过试错学习抓取策略。

具身智能的这些特征和理论基础使其在机器人学、人工智能和认知科学等领域中具有重要的应用价值,尤其是在需要智能体在复杂、动态环境中进行自主决策和行为的场景中。

概念辨析

具身智能,强调智能体在真实环境中的感知、行动和学习能力。这种以“身体”为媒介的智能形式更接近人类自然认知过程,以交互为核心,强调智能体通过身体与环境动态互动实现智能行为,适用于动态、开放式任务,如机器人导航、人机协作等。能够更好地适应动态、不确定的复杂环境,在机器人、自动驾驶、虚拟现实等领域具有广泛应用前景。

传统人工智能(AI),多依赖于数据驱动和符号推理,以计算为核心,强调算法优化和数据训练,与环境的交互有限,多用于静态任务如图像识别、自然语言处理等。

智能体(Agent),和具身智能相比范围更广,是指能够感知环境并通过行动实现目标的实体,涵盖虚拟、物理形态。具身智能是智能体在物理世界中的具体化形式。而以ChatGPT为代表的“软件智能体”(或称“离身智能体”)使用大模型通过网页端、手机APP与用户进行交互,能够接受语音、文字、图片、视频的多种模态的用户指令,通过计算处理数据执行任务,当前存在“智能是否必须具身”的争议。

通用人工智能(AGI),以全域智能为核心目标,追求像人类一样跨领域自主学习、推理和适应,被视为人工智能发展的终极形态‌。具身智能‌是推动AGI从数字世界走向物理现实的关键技术路径‌。

具身机器人(Embodied Robot),与具身智能紧密关联但内涵不同的概念。具身智能是智能体通过物理身体与环境动态交互实现认知和行动的能力,而具身机器人则是具身智能的具体载体和表现形式。

发展脉络

具身智能的发展历程跨越了从哲学思辨到技术落地的多个阶段,其核心理念是通过智能体与物理环境的动态交互实现认知与行动能力。以下是结合现有研究和技术报告总结的具身智能发展脉络:

图片2.png

图2 具身智能发展脉络

首先是早期萌芽阶段,主要是理论与实践探索。早在1945年法国哲学家梅洛-庞蒂在《知觉现象学》中提出“具身性”(Embodiment)概念[3],该书与萨特的《存在与虚无》并称为法国现象学运动的奠基性著作‌,强调身体是认知与环境的媒介,其思想对心理学、认知科学及人工智能(如“具身智能”研究)产生了深远影响‌;此后在1950年,图灵在论文中首次提出“具身智能”设想,认为智能需通过物理实体与环境的互动实现。此后在1960年代后,机器人开始应用于汽车制造业,但功能局限于预设程序的重复动作,缺乏自主性。到了1980年代,罗德尼·布鲁克斯在MIT人工智能实验室提出“包容架构”(Subsumption Architecture),主张主张以“感知-行动”模式模拟生物对环境的直接反应,通过简单行为模块组合实现智能,其团队开发了成吉思”(Genghis)六足机器人是包容架构的典型代表,其分布式控制单元使机器人无需全局地图即可适应复杂地形‌。20世纪90年代后进入技术积累阶段,跨学科融合与算法突破。

一是认知科学与机器人学结合,具身认知理论(Embodied Cognition)逐渐成熟,强调身体形态与环境交互对智能的塑造作用。仿生机器人(如波士顿动力早期四足机器人)开始模拟生物运动机制,推动形态计算(Morphological Computation)的研究。

二是算法与技术演进,2000年代,深度学习与强化学习(Reinforcement Learning)的兴起,使机器人能够通过试错优化行为策略(如OpenAI的Dactyl机械手);2010年代,多模态感知技术(视觉、触觉融合)和边缘计算的应用,提升实时环境交互能力。

2022年后随着大模型的出圈,进入技术突破阶段。大模型与具身智能的融合,生成式AI与机器人技术结合,赋予智能体语言理解和任务泛化能力。例如,谷歌RT-2模型通过自然语言指令控制机器人完成复杂操作。2024年,OpenAI与Figure公司合作推出Figure系列人形机器人,实现高精度感知与动态任务执行。随着技术与算法革新,在大模型和政策的推动下迈入产业化新阶段。其未来将围绕“感知-决策-行动”闭环持续突破,成为连接虚拟与物理世界的智能桥梁,深刻重塑工业、医疗、家庭等领域的运作模式。

【参考资料】

[1] 莫里斯·梅洛-庞蒂. 知觉现象学. 姜志辉, 译. 北京: 商务印书馆, 2001[2] 中国计算机学会,《具身智能》,2023[3] Merleau-Ponty, M. (1945). Phénoménologie de la perception. Gallimard.Pfeifer, R., & Bongard, J. (2006). [4] Liu, Yang, et al. “Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI.” arXiv preprint arXiv:2407.06886, 2024.[5]《科技热词“具身智能”到底是什么?》,中科院物理所[6]《具身智能时代来了?》,中国报道[7] Brooks, R. A. (1991). Intelligence Without Representation. Artificial Intelligence, 47(1-3), 139–159.

[8] Lakoff, G., & Johnson, M. (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Thought. Basic Books.

[9] Pfeifer, R., & Bongard, J. (2006). How the Body Shapes the Way We Think. MIT Press.

[10] How the Body Shapes the Way We Think: A New View of Intelligence. MIT Press.Shapiro, L. (2010). Embodied Cognition. Routledge.

[11] Varela, F. J., Thompson, E., & Rosch, E. (1991). The Embodied Mind: Cognitive Science and Human Experience. MIT Press.

[12]《2024年具身智能产业发展研究报告》,36氪研究院

[13]《具身智能发展报告(2024年)》,中国信息通信研究院

[14]《具身智能行业发展研究报告 系列报告之一:具身智能技术发展与行业应用简析》,甲子光年智库

[15]《中国具身智能创投报告》,量子位智库

[16] L. Londono, J. V. Hurtado, N. Hertz, P. Kellmeyer, S. Voeneky, and A. Valada, “Fairness and bias in robot learning,” Proceedings of the IEEE, 2024.

[17] J. Duan, S. Yu, H. L. Tan, H. Zhu, and C. Tan, “A survey of embodied ai: From simulators to research tasks,” IEEE Transactions on Emerging Topics in Computational Intelligence, vol. 6, no. 2, pp. 230–244, 2022.

[18] Z. Xu, K. Wu, J. Wen, J. Li, N. Liu, Z. Che, and J. Tang, “A survey on robotics with foundation models: toward embodied ai,” arXiv preprint arXiv:2402.02385, 2024.

作者:毕蕾 中国移动咪咕公司北京研究院 系统开发总监

审核:

单华琦 中国移动咪咕公司北京研究院 技术标准总监

邢刚 中国移动咪咕公司北京研究院 技术项目总监

徐嵩 中国移动咪咕公司北京研究院 资深系统架构与分析专家

出品:科普中国×中国移动科学技术协会

图文简介

“具身智能”是人工智能与物理实体结合的产物,近期被首次写入政府工作报告,这个科技新词到底是什么?