// 新刊推荐
// 中经传媒智库

大模型加持下,人形机器人上岗

原创 作者:哀佳 石丹 / 发布时间:2024-06-03/ 浏览次数:0
 
科技浪潮推动下,人工智能正以前所未有的速度和规模,重塑着我们的世界。
 
在深圳国际会展中心举行的“Create 2024百度AI开发者大会”上,搭载了百度大模型“文心一言”的优必选人形机器人Walker S“空降”亮相,成为全场焦点,这预示着人形机器人技术正迈向一个新的里程碑。2024年初,Walker S一经推出,就进入了蔚来第二先进制造基地总装车间进行实地“培训”,实现全球首例人形机器人在汽车工厂流水线与人类协作完成汽车装配及质量检查作业。
 
再看国外,波士顿动力正式宣布液压Atlas“退役”,并公布了全电动Atlas机器人的“新生”。波士顿动力方面表示:“现代汽车团队正在锻炼下一代汽车制造的能力,它们的工厂将成为新Atlas应用的试验场。下一代‘Atlas计划’会建立在前面几十年的研究基础上,并进一步提供最有能力且最有用的机器人。”
 
无论是Walker S还是新Atlas,人形机器人从理论研究到实际应用的跨越,让我们看到它们在赋能生产力方面的无限潜力,而在大模型技术的加持下,人形机器人或将成为推动生产力发展的关键力量。
 
做AI时代的工人
 
当下人形机器人在工业生产制造领域的应用已经到达了一个重要的转折点,成为推动新质生产力发展的重要力量。
 
2023年9月,习近平总书记首次提出了“新质生产力”这一概念,并在2024年1月中央政治局集体学习时进一步阐述,提出了具体的探索方向。2024年全国两会期间,习近平总书记再次强调了加快发展新质生产力的重要性,并将此任务列为“2024年十大工作任务”之首。新质生产力的核心目标是提升和改造传统产业、培育和壮大新兴产业以及布局完善未来产业。
 
在北京举办的“首届中国人形机器人产业大会暨具身智能峰会”上,国内人形机器人公司优必选科技副总裁、研究院执行院长焦继超指出,在技术进步的驱动下,特别是人形机器人结合大模型和新的人工智能技术,其实用性和应用范围正在迅速扩大。
 
焦继超认为,发展人形机器人的主要目标之一,是替代那些因人口老龄化和人口减少而面临劳动力短缺的职位。例如,在工业制造领域,工人通常面临高劳动强度,随着工人平均年龄的增加,劳动力市场遇到了瓶颈,重复的劳动如3C制造、汽车总装线以及物流行业中的搬运和分拣工作,以及需要大量人力进行质检的岗位,都是人形机器人的应用热点。在3C行业,如笔记本电脑和手机的生产过程中,有些岗位需要使用对人体有害的化学物质,这些岗位同样适合人形机器人来替代人工。
 
目前,在工业质量领域,广泛认可的“721”原则指出:70%的工作量已经可以由自动化设备如工业机械臂、倾斜臂、智能搬运机器人(AGV)等完成;10%的岗位主要是管理性质的工作,仍然需要人类的参与;最后20%的岗位,预计将来可能会被人形机器人所替代,包括组装、分拣等岗位,目前这些岗位还无法被工业机械臂或智能搬运机器人取代。人形机器人的优势在于,它们能够适应非结构化环境,并且拥有更灵活的“大脑”和“双手”,以及能够无缝切换使用人类工具的能力,这使得它们在工业场景中的应用前景非常广阔。
 
焦继超认为,当下人形机器人在工业生产制造领域的应用已经到达了一个重要的转折点,它们正成为推动新质生产力发展的重要力量。
 
例如,美国初创企业Agility推出了物流机器人,并在福特和亚马逊的物流场景中得到了广泛应用;特斯拉也在2022年和2023年逐步迭代其Optimas人形机器人,并已将量产计划提上日程;此外,Apptronik和Figure AI等公司在人形机器人领域也取得了显著进展。同时,国际人工智能企业,如英伟达和微软也开始在这一领域进行投资,这表明人形机器人已经成为人工智能技术通往AGI道路上的最佳载体。
 
不仅新兴企业,以波士顿动力为代表的国际老牌人形机器人团队也在积极适应工业场景,Atlas和HRP等高负载人形机器人不断进行迭代以适应市场需求的增加。
 
再看国内,优必选人形机器人Walker S已经进入蔚来车间进行“实习”;智元机器人与临港集团签署了战略合作协议,从临港奉贤的首期生产制造基地开始,推动智元机器人开启商用量产,旨在打造成为上海人形机器人“第一座量产工厂”。
 
焦继超表示,最初人形机器人更多被用在导览接待、教育科普等服务场景,但从2022年开始,优必选认识到,在工业制造场景中,人形机器人具有更大的应用潜力,有可能比商用服务场景更早实现落地。因此,从2023年至今,优必选的重点已放在了探索人形机器人在智能制造场景中的应用落地,工业制造有望成为人形机器人首个大规模应用的领域。
 
此外,在国家政策层面,例如,北京、上海等地已陆续成立了人形机器人创新中心,将人形机器人列为重点应用方向之一,并推动其在装配、转运、检测等工序的应用和推广。
 
面向操作端的竞争
 
对于我国的机器人产业来说,做好数据收集和搭建数据收集平台是一项至关重要且刻不容缓的工作。
 
人形机器人并非新事物,世界上第一台人形机器人是日本本田公司2000年推出的,名为“ASIMO”。
 
据焦继超介绍,从发展到现在,优必选在人形机器人领域的研究经历了多个阶段。从2012年成立以来,公司就投入人形机器人核心技术以及产品的研发;2016年推出了大型人形机器人Walker的原型机;2018年,在国际消费类电子产品展览会(CES)上,首次发布了第一代人形机器人Walker;2019年推出了第二代Walker;2021年推出了Walker X;2023年研发了工业人形机器人Walker S,到目前一共经历了五次迭代。
 
经过五次迭代,人形机器人Walker不断变得更加“聪明”。比如:第一代Walker可以实现“上下楼梯、跟球踢球、跳舞”等动作;第二代可以完成“类人步态行走、弹琴、倒水、写字画画”等动作;Walker X可以实现“手眼协调、复杂地面自适应、动态足腿控制”等动作;新一代的Walker S则可以实现“环境任务感知、手眼协同精细化操作、高精3D语义定位导航”等操作。
 
要想实现具身智能的效果,人形机器人还需要不断“锻炼”两个方面的能力:一是“具身”,二是“智能”。“具身”指的是要依附于真实世界的物理实体,也就是用机器人的“身体”去认识世界、探索世界,并通过与环境的交互去影响世界;“智能”指的是需要具备感知、认知、推理、决策、持续迭代的能力,也就是机器人需要拥有一个像人类一样的“大脑”。
 
北京人形机器人创新中心总经理熊友军表示:“在机器人本体制造方面(传动部件、行走部件,手、臂、腕等),国内已经出现了许多公司,预示着未来将是一个多样化的繁荣局面,这将推动整个产业链的快速成熟,成本将大幅下降,生产环节也将逐步稳定。”
 
“早期,国内许多初创企业更注重机器人的移动能力,很多公司推出了展示其腿部和足部能力的酷炫机器人,包括跑跳和翻跟斗等动作。但是,在未来两三年里,人形机器人的行走能力可能会逐步趋于一致,并逐渐成熟。未来竞争可能会更多地转向操作端,特别是手眼协调方面的工作,更加关注如何实现产业化以及如何为生产和生活带来更多帮助。”熊友军说。
 
面对操作端的工作,则将更加考验人形机器人的“智力”水平。
 
实际上,无论是深度强化学习还是模仿学习,其目标都是希望人形机器人能够实现在同样一套控制策略下,可以由单一对象迁移到多种对象,实现操作的泛化。目前比较常见的范式为“Sim-to-real范式”,本质上是从零开始“训练”人形机器人。通过在机器人和现实世界之间构建“虚拟环境”(仿真器),借助模拟环境低成本生成海量数据,在虚拟环境中进行大样本的强化学习,实现泛化的目的。但是,其挑战在于,构建仿真器的技术壁垒比较高,且难以对现实世界进行完美建模,当模拟环境迁移到真实世界时,受到如光线、温度、障碍物等因素影响,可能容易出现误差。
 
熊友军认为:“总的来看,人形机器人数据集已经成为行业的壁垒。对于我国的机器人产业来说,做好数据收集和搭建数据收集平台是一项至关重要且刻不容缓的工作,没有数据支撑,就没有算力的优势。目前,许多国际大厂都已开始进行数据收集。然而,国内参与国外开源数据集收集工作的企业相对较少,比如谷歌的机器人数据收集项目。
 
给机器人装上“大脑”
 
大模型自带的海量数据,并且擅长决策与规划,而这同样也是机器人系统中的核心功能,可以帮助机器人自主地选择行动策略并生成动作序列。
 
“当下,利用大模型的规划能力来生成代码或工作流程正成为一个趋势。例如,优必选与百度‘文心一言’的结合,借助大模型来理解前期的任务,感知环境并进行动作规划,然后生成一系列原始动作的序列,或者直接生成操作代码。当前人工智能技术的发展趋势非常迅猛且需要大量投入,任何单一公司都难以独立取得显著成效。”熊友军说。
 
与运动控制领域的“Sim-to-real范式”不同,预训练大模型不需要通过构建仿真器来构建虚拟环境生成数据,而是直接给机器人安上“大脑”。大模型自带的海量数据,并且擅长决策与规划,这同样也是机器人系统中的核心功能,可以帮助机器人自主地选择行动策略并生成动作序列。
 
由斯坦福大学、普林斯顿大学等多所顶尖学府,以及英伟达、Google DeepMind等众多知名企业组成的联合研究团队,发表的一篇综述报告Foundation Models in Robotics: Applications.Challenges, and the Future中指出,传统的机器人决策与规划方法依赖于精确的环境模型和专家知识,难以适应非结构化环境的不确定性和复杂性。近年来,深度强化学习的发展使得机器人能够从数据中学习决策与规划策略,但其样本效率和泛化能力仍有待提高,而接入大模型为提高强化学习的样本效率和泛化能力提供了新的思路。
 
比如,以ChatGPT为代表的大语言模型,为机器人决策与规划引入了语言理解、常识推理等关键能力。在任务规划方面,以PaLM-SayCan为代表的模型实现了将自然语言指令转化为可执行计划;在运动规划方面,以DiffSkill为代表的扩散模型可以同时兼顾轨迹的平滑性、多样性和语义一致性,为机器人运动规划提供了更灵活、更高效的解决方案;在策略学习方面,以CLIP为代表的“视觉-语言”模型实现了高效、泛化的策略学习。
 
需要注意的是,尽管大模型在机器人控制方面展现出了广阔的应用前景,但在实际控制真实世界时,如何进一步提高其实时性、鲁棒性和可解释性仍然是亟待解决的问题。在硬件性能是否达标,且无法判断控制算法优劣的情况下,这本质上是一个极其复杂的工程项目,关键在于硬件系统和软件算法之间需要紧密耦合并进行不断迭代。
 
焦继超表示:“优必选研发了ROSA系统来帮助机器人与人工智能进行融合,通过实现硬件与软件功能模块之间的调度和实时通信,使得Walker S具备强大的环境适应能力和针对不同任务通过快速学习且完成的能力。”

除《商学院》杂志署名文章外,其他文章为作者独立观点不代表《商学院》杂志立场,未经允许不得转载。版权所有

欢迎关注平台微信公众号

 点赞 30
 收藏 20