从人工智能到类人感知，商汤绝影的智能汽车之路

在2023上海国际车展上，“商汤绝影”（下称“绝影”）携驾、舱、云三位一体的产品体系亮相，展现了全栈智能驾驶解决方案。绝影是2021年时，商汤科技（下称“商汤”）推出的“绝影SenseAuto”智能汽车平台，2022年，绝影智能驾驶和智能车舱产品完成了27款车型的适配和量产交付，新增车企定点（被汽车厂商指定为零部件的批量配套供应商,确认定点后根据双方确认的时间节点完成各项确定的目标后再进入批量生产、供货）数超过800万台。

随着大模型的出现，“绝影”正向类人的智能感知方向突破，创造出更好的人车交互体验。

通用人工智能引领二次革命

随着ChatGPT的出现，通用人工智能引领了二次革命，以更加高效的方式解决海量开放式的任务。

从2012年开始，人工智能技术革命是以深度学习不断突破工业应用红线为起点，诞生了一系列“AI+场景”的应用。但美中不足的是，每个场景都有其专属模型，研发成本高，研发周期长。这些人工智能系统的输入可以是多模态的数据，输出也可以是多个任务，但是这些任务都是预先设计好的。如果遇到新任务，就要重新设计AI系统，采集样本，对模型重新训练。

商汤联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚说：“汽车智能化早先做得比较多的是感知理解，主要用于操纵各种汽车内的功能，各种决策判断都是基于一些固定规则，但现在车厂提出的要求是，希望智能化更加接近人的思维，带来拟人化的体验。”

随着ChatGPT的出现，通用人工智能（AGI）引领了二次革命，以更加高效的方式解决海量开放式的任务，更加接近人类的智能，从而产生新的智慧。一个AGI模型，当给定合适的提示词输入时，可以生成多模态数据，如语音、图像、文字以及激光雷达的3D点云等多种类型的数据，加上用自然语言描述的任务，人们无需改变模型本身，而是通过设计合适的提示词就能覆盖海量复杂的开放式任务，包括各种长尾以及一些主观描述性的任务，这对于人工智能的大范围推广有非常重要的意义。

新技术的出现，为智能驾驶打开了一条新路。王晓刚提到，在一个自动驾驶场景中，给定一幅图，科研人员希望知道自动驾驶车辆是否应该减速，现有的AI系统会首先进行物体检测，得到检测框，再进行文字识别，最后做出决策判断，所有的模块都是预先设计好的任务。但在AGI系统中，给定图像，可以问AGI任何问题，比如“这个图标是什么意思？我们应该做什么”等等。AGI系统会推理并给出答案，比如看到了前方100米道路有每小时30公里的限速，AGI会推测出这是学校区域，有小孩活动，所以需要小心小孩，将车速降到30公里每小时以下。通用模型的出现，能够帮助人们实现不同行业之间的融合，实现产品和场景应用的创新。

智能汽车承载了人们对人工智能的期待。用户期望汽车能够获得全方位感知，理解自己的需求，提供各种个性化的服务，也希望自动驾驶能像老司机一样，提供安全可靠的驾车体验，而现实情况是，人类距离这个目标还有一系列难题待解。

王晓刚解释说，现在的智能汽车虽然有很多传感器，有摄像头、麦克风以及激光雷达的传感器，但是各种不同类型的传感器信号不能很好地融合，使得多模态的数据处于一种割裂状态。尤其是一些关键决策和控制模块是基于固定规则的，不能针对不同的环境和个人给出个性化的输出，因而终端用户的体验是机械呆板的，交互的界面也比较呆板、繁琐，所以有人评价，这种体验是“假AI”。“智能化的普及希望能够把成本降下来，体验和成本需要平衡。首先是体验，体验不好，即使成本再低，消费者也不会启用功能。”王晓刚表示。

寻找优质大模型

优质大模型就像有天赋的运动员，人类只要输出一些方法论，给予恰当的引导，它就能够学会甚至创造新的动作，见招拆招。

智能系统设计对感知的要求非常高。汽车如何在减少传感器数量、成本的同时，还能实现各种功能之间的复用，这是工程师们要解决的难题。当有越来越多的功能加入时，也要尽可能降低对算力的要求，在中低算力下实现智能化，而在算力应用中，感知占较大的比重，这也恰恰是商汤的优势所在。

王晓刚说，通用人工智能模型可以通过与人的互动，产生有智慧的内容，称为“人机共智”。在AI系统中，商汤从终端设备不断地采集并且标注大量的数据去更新模型，模型可以反馈到前期终端设备，去获取更高质量的数据。

在AGI系统中，人对于模型的输入是与人的意图（Align with human intention）进行对齐，通过人的调教、指导甚至方法论的输出，不断地解锁新模型的新能力，让模型输出更高质量、更具有智慧的内容，称为“智慧飞轮”，这个过程是人和模型共同创造智慧的过程。

什么是优质大模型？王晓刚认为，优质大模型就像有天赋的运动员，人不需要一招一式地做演示，只要输出一些方法论，给予恰当的引导，甚至是在一些关键的地方给予指导，它就能够学会甚至创造新的动作，见招拆招。

要研发出非常优质的大模型，数据是必不可少的要素，商汤在众多行业里积累了非常丰富的高质量数据，这也让商汤在过去5年里，在大模型领域有了集中地爆发。2019年时，商汤首次发布了10亿参数的视觉大模型，2022年发布了320亿参数的视觉大模型，这也是世界上迄今为止最大的视觉模型。2023年发布的大语言模型能力达到了千亿参数的级别。前不久，商汤开源了“书生2.5”模型，这是一个拥有30亿参数的多模态模型。2023年，商汤也拥有了70亿参数的AIGC模型，能够支持文生图和图生图的各种功能。所有这些积累，帮助商汤可以训练一个更加强大的多模态大模型。

在智能驾驶板块，2021年，商汤开发了自动驾驶的BEV（Bird Eye View）感知算法，将多路环视摄像头采集到的数据，通过BEV Former的Transformer能够直接映射到Bird Eye View下得到结果，在Waymo挑战赛上取得了冠军，如今已经实现了量产。

绝影也是国内率先服务车企量产L2+功能的Tier-1技术供应商。绝影领航驾驶产品在广汽埃安AION LX Plus、哪吒S等多款车型上完成落地。通过稳定的环视BEV感知能力和强大的通用目标感知能力，绝影助力广汽埃安AION LX Plus实现了高速NDA辅助驾驶功能，城市场景也将进一步实现拓展与覆盖。此外，绝影全栈智能驾驶解决方案将为合作车型哪吒S的车主带来安全可靠、高效舒适的高速领航辅助驾驶体验。

除了扎实推进量产，更值得一提的是，在2023 CVPR大会（计算机视觉领域的顶级会议）上，一篇题目为Planning-oriented Autonomous Driving（以路径规划为导向的自动驾驶）的论文从近万篇论文中最终脱颖而出，斩获“CVPR 2023最佳论文奖”（Best Paper Award），这是CVPR历史上第一篇以自动驾驶为主题的最佳论文，该论文首次提出感知决策一体化的自动驾驶通用大模型UniAD。

而UniAD正是上海人工智能实验室、武汉大学、商汤科技联合团队的最新研究成果，也是业内首个感知决策一体化的端到端自动驾驶解决方案，将环视的图片通过Transformer映射得到BEV的特征，同时进行目标的跟踪、在线的建图，包括目标轨迹预测、障碍物预测，最终实现驾驶行为。

未来，商汤也将利用多模态大模型，进一步去推动自动驾驶技术的发展。比如，可以通过AIGC产生大量的困难样本，用环视感知的数据和多模态数据作为多模态大模型的输入，实现感知和决策一体化的集成。

它的输出通过环境的解码器去重建3D场景，通过行为的解码器去实现路径的规划，通过动机解码以及自然语言去解释自动驾驶的动机，使自动驾驶的系统更加安全可靠，具有可解释性，就更加接近人类的驾驶行为。

智能汽车的进化

绝影车路协同平台不仅可赋能单车智慧决策，还可有效挖掘车载感知数据的价值，进而赋能智慧城市管理。

一直以来，汽车厂商都非常关注智能座舱技术的场景应用，包括疲劳提醒、负面情绪缓解、健康问诊等安全保障方式，旅游推荐、游戏、车内购物等娱乐方式，儿童伴读、写作、英文学习教育方式，以及新闻概要、车内办公等效率提升方式。

绝影将DMS和OMS结合形成座舱的四大产品：驾驶员感知系统、座舱感知系统、智能进入以及座舱APP，并进一步融合“日日新Sense Nova”大模型体系，实现座舱感知从被动到主动交互。通过打造记忆模块记录标签化数据，理解用户的习惯和偏好，为用户提供个性化数据推荐和定制服务。

绝影还打造了全新智能座舱架构：车端和云端为底层支撑，智能车舱“大脑”为核心，不同风格的定制化数字人交互呈现各类智能应用，实现座舱如人一般的智能。通过视觉、听觉等多模态融合，全方位感知用户需求，并通过标签化数据记录用户习惯和偏好，提供专属个性服务。同时可支持形象、语音快速定制的数字人进行拟人化交互。目前车舱已具备健康问诊、旅游规划、儿童伴读和AR说明书等智能座舱大模型应用。

在座舱商业落地板块，绝影正在以极“智”感知能力，带来高安全、智交互、个性化的驾乘体验。例如在绝影的助力下，蔚来ES7支持出行场景下对驾驶员的疲劳状态进行实时提醒，同时助力提供Face ID、儿童遗忘检测系统（CPD -Child Presence Detection）等乘员感知技术。通过视觉AI技术，绝影对驾驶员注意力检测升级为3D空间建模方案，应对不同的驾驶员身高、坐姿习惯及环境光照等干扰，长尾场景下播报准确率提升53%；同时针对特定模型持续优化，针对小眼睛用户、睁闭眼及逆光等复杂场景下播报准确率提升47%。绝影还助力实现了基于方向盘管柱位置的感知能力，实时感知效果不受方向盘转动、位置变化的影响。这些功能也同样应用于基于蔚来NT2.0平台的ET7、ET5等车型，未来还将延伸至蔚来更多核心车型中。

在自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力的加持下，基于商汤“日日新SenseNova”大模型体系，绝影还致力于打造更加高效的车路云协同交通体系，让车路云的沟通向大模型对话式交互演进，打造“聪明的车+智慧的路+协同的云”一体化分析决策方案。此外，得益于大模型的AIGC赋能，城市级场景生成从人工建模1万人/天缩短到2天更安全、更高效的交通环境。厘米级重建精度也确保了场景细节的高还原，高效助力智能交通场景的孪生与仿真。

当前，国家正在大力推动车路协同从示范区“进城”，逐步实现规模化推广和商业化部署，从而推进智慧城市基础设施与智能网联汽车“双智协同”发展。秉承“智慧城市与智能汽车将互为基础设施”的发展理念，绝影车路协同平台不仅可赋能单车智慧决策，还可有效挖掘车载感知数据的价值，进而赋能智慧城市管理，为双智城市的建设与发展提供平台级解决方案，最终构建安全、成本可控、低碳的便捷出行服务和城市运营能力。

目前，绝影车路协同平台正逐步在国家级车联网先导示范区、封闭园区、高速公路和城市交通的管理场景中落地，助力交通管理服务，做出高效决策，提高效率及安全性。

从人工智能到类人感知，商汤绝影的智能汽车之路

返回上一篇

下一篇