清华大学教授孙富春：具身智能是AI进入物理世界进行交互的载体

2024年12月6日，“2024数智科技大会”在成都召开，活动以“奔向数智新时代”为主题，由成都传媒集团指导，每日经济新闻主办，中央财经大学数字经济融合创新发展中心提供学术支持，数智未来场景实验室进行智略支持。

会上，清华大学计算机科学与技术系教授、中国人工智能学会副理事长孙富春围绕“具身智能赋能产业发展”发表主题演讲。他首先回顾了具身智能的起源，提到沃伦·S·麦卡洛克探讨认知与身体的关系、艾伦·图灵通过心智的发育和具身来发展智能，以及赫尔德和海因证明了主动行为与感觉反馈的互动对认知发展至关重要。

孙富春发表主题演讲图片来源：每经记者张建摄

孙富春还解释了具身智能与离身智能体的区别。“离身智能体不具备物理形态，被动接受人类采集制作好的数据，停留在‘纸上谈兵’，而具身智能是给机器一个物理的身体或形式来与物理世界交互（如家用服务机器人、无人车等）。1963年麻省理工学院Richard Held教授用一对猫做学习训练，一只猫放在篮子里并蒙上眼睛，另一只猫在物理世界自主行动，结果与物理世界进行感知与交互的猫学会了行走，这个例子进一步说明具身的重要性。”

然而，要实现真正的“智能”，具身智能系统需要具备场景感知、认知、多模态的连续学习等能力为机器人提供更为丰富和全面的环境理解能力。孙富春举例称：“人要做好一件事通常要将抽象的感知提升为认知，而认知最重要的承载是知识，把苹果放在桌子上可以分解为三步。首先，找苹果，这是感知技能加认知技能的结合，我们的大脑指挥颈部带动眼睛扫描；第二步，抓住苹果；第三步，放置苹果。在知识引导下，机器也会如同人一样迅速完成各类任务，并且可以根据操作对象的不同形态、大小、软硬来完成操作。不仅如此，具身智能还体现在智能体做多任务和跨任务方面。”

当前，具身智能的快速发展，为众多行业带来了前所未有的变革机遇。在制造业领域，具身智能机器人能够精准执行复杂的生产任务，提高生产效率和产品质量；在医疗领域，具身智能也展现出了巨大的应用潜力。例如，在外科手术中，医疗机器人可以辅助医生进行高精度的手术操作，降低了手术风险，提高了手术成功率。此外，具身智能还在智能家居、安防监控、智慧交通等领域发挥着重要作用。

展望具身智能的未来，孙富春提出，具身智能的发展将主要围绕四大核心要素展开：本体，具身智能体，数据、知识和场景以及学习和进化架构。

具体来看，本体作为实际的执行者，是在物理或者虚拟世界进行感知和任务执行的机构，具有广泛适应性的机器人本体是非常必要的。其次，具身智能体是具身于本体之上的智能体，负责感知、理解、决策、控制等核心工作，能够与环境进行自主交互是具身智能的核心。目前，具有通用能力的LLM（大语言模型）和VLM（视觉语言模型）等模型可以赋予具身智能体强大的泛化能力。第三，数据是泛化的关键，但涉及机器人的数据稀缺且昂贵。为了适应复杂环境和任务的泛化性，模型规模变得越来越大，而大规模的模型对于数据的要求更为严格。第四，真实物理环境的诸多方面目前往往难以模拟，如何对简单的仿真和复杂的真实世界进行有效的Sim2Real建模，也是智能体设计的关键。

免责声明：本文章由“知识和经验”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

清华大学教授孙富春：具身智能是AI进入物理世界进行交互的载体

相关推荐