虚拟数字人，从偶像走向平民

古希腊哲学家泰勒斯曾说，“万物都充满了神明”。当人们以为神明居住在高高的奥林匹斯山上时，泰勒斯却在家中厨房门口写下了一行字：“请进，神明也在里面。”今天，当一个个偶像级别的虚拟数字人（MetaHuman）出现时，我们对“Ta们”的认知究竟该停留在对“奥林匹斯山的膜拜”上，还是把“Ta们”请进我们的“厨房”？

2021年，虚拟偶像红了。翎Ling、AYAYI、集原美、柳夜熙……一个接一个的虚拟数字人出道即顶流。他们巧在非常具象，有如明星那样去吸粉、代言、表演，物以稀为贵，轻轻松松地便将大众对真人偶像的认知挪移过来。

量子位在《虚拟数字人深度产业报告》中指出，预计到2030年，中国虚拟数字人整体市场规模将到达2700亿元。值得注意的是，在国家政策层面，2021年3月，国家将虚拟数字技术的发展纳入《中华人民共和国国民经济和社会发展第十四个五年规划和 2035年远景目标纲要》，实现虚拟数字技术创新已成为未来中国实现产业创新和技术强国的必经之路。

顺为资本副总裁冯铮告诉《商学院》记者，资本市场思考的数字人与公众的感知截然相反，资本市场看好的是“厨房中的数字人”，那是人们无处不在的伙伴、助手，而不是高高在上、需要顶礼膜拜的明星。

概念篇-人类需要怎样的虚拟数字人

虚拟数字人是由AI和3D渲染技术在虚拟世界中创造的人，是“能跟你说话的假人”。

虚拟数字人的英文名为MetaHuman，该词来源于Epic Games下的一款虚幻引擎MetaHuman Creator，它帮助开发人员创建令人惊叹的逼真角色，由技术带来的酷感和新奇感，让早出道的虚拟偶像刷到了一波流量红利。然而，从“虚拟偶像”到“虚拟数字人”，“这中间的跨度好比从网络初代的BBS到微信的距离，我们对MetaHuman的认识才刚刚开始。”冯铮说。

虚拟数字人是由AI和3D渲染技术在虚拟世界中创造的人，是“能跟你说话的假人”。缔造虚拟数字人的是两大成熟技术，即计算机图像技术和AI技术。

在投资这个赛道时，先要了解虚拟数字人的功能、特点，进而从中找到机会。

虚拟数字人的本质是交互方式

2019年，顺为资本在研究虚拟世界时得出的结论是，虚拟数字人的本质是交互方式的改变。

回顾历史，每一次新技术的出现都会改变人与设备的交互方式。电脑时代，交互方式是通过软件，借助鼠标和键盘来传达指令；移动互联网时代，人们通过手机APP，借助多点触控技术来互动；进入3D世界，终端设备将变成VR和AR，与虚拟数字人交互采用的是由AI驱动的视觉、语言和动作，更贴近人类的自然习惯。《头号玩家》向我们展示了在人为创造的绿洲中，虚拟数字人如何像真人那般在虚拟世界中互动。

虚拟数字人可分为真人驱动型和AI驱动型。前者，每个人都有自己的“Avatar（阿凡达）”，在虚拟世界里，由真人驱动的“Avatar”进行交互，但代表的都是虚拟世界中的自己；由AI驱动的虚拟人将成为人们的生活助手，帮着打游戏、提供求医问药的指导等等。

虚拟数字人的应用还可分为服务型虚拟数字人和身份型虚拟数字人。替代真人服务中的虚拟主播和虚拟IP中的虚拟偶像是目前的市场热点。

虚拟数字人目前在哪些领域做交互呢？他们能够替代简单的客服工作、销售的咨询以及医疗方面的简单咨询等等。搜狗的新闻AI主播，只要有文字稿就能自动生成无限量的节目内容；搜狗还和其他公司合作研发出了数字人客服，例如视频面试官等等，在这些领域中，需求量将逐步提高。那些更智能、更垂直的应用，比如虚拟家庭健身教练将会有更多的应用场景。

虚拟偶像不是虚拟数字人赛道的未来

目前，人们对虚拟数字人的认知大多停留在“虚拟偶像”上。在这个阶段，虚拟偶像虽然看起来并没有那么智能，但它却解决了当前内容行业中利润分配机制的问题，因为很多经纪公司的收入大部分被明星拿走了。虚拟偶像不会要求加薪，也不存在私德的问题，公司能够完全控制它，拥有其全部的使用权和收益权。

虚拟偶像的“风”很大，这是在当下最容易被公众理解的形象。但是相较于人人都是虚拟数字人的时代，虚拟偶像的市场价值并没有想像的那么大，毕竟真人明星的市场也有限，况且真人对人的吸引力永远比虚拟数字人大。

·虚拟数字人的价值是效率和公平

请奥运冠军做教练，以往只是少数人的福利，但是如果以“Ta”为原型，交由AI驱动的“人”来教学，将其训练方法结合用户的实际需求来生成定制的教学课程，效率将会大大提升，这是AI驱动的虚拟数字人的意义。

反之，虚拟偶像并没有提升效率，比如虚拟偶像音乐会往往需要更大量的技术支持，反而不如真人偶像方便。另外从公平视角来看，虚拟数字人能让资源平等化，在AI驱动下，奥运冠军成为私教，能识别动作，对训练加以定制，让更多人享受最好的指导，这也是一种平权。

虚拟数字人一定要像真人吗？

虚拟世界再好，与真人的感受还是有距离。有些虚拟数字人采用更像真人的超写实风格，但由于涉及到的渲染成本很高，也很难做好。虚拟数字人只能无限接近，但永远做不到真人的状态。

“真人化”的意义又是什么？

当电子书出现时，人们期望电子书取代实体书，甚至有人开发出超高清的电子书扫描技术，但最后发现这是徒劳。电子书有电子书的好处，可放大、缩小、做笔记，但阅读的舒适感依然无法与真书相比。

同理，人们期望虚拟数字人能像真人一样的交互，但并不意味着人们希望交互的对象一定要长得像真人。

人们的喜好、审美是多元化的，虚拟数字人的美术创作风格也是丰富多样的。啫喱APP里的画风都是卡通人物，人们可以按照自己的喜好去“捏脸”，成为虚拟社交世界的“自己”。电影《阿丽塔：战斗天使》中的“战斗天使”阿丽塔使用了逼真的3D 渲染技术，二次元、2.5次元的形象也都有自己的用户群体。在国风国潮的影响下，以翎Ling为代表的具有中国式审美的虚拟数字人赢得了一众粉丝的心。

技术篇-虚拟数字人是数字技术发展的成果

一个虚拟数字人的创造，是对近几十年来互联网技术和数字技术发展集成的检验，底层技术包括芯片、算力、算法等。

冯铮介绍，在让虚拟数字人像真人一样灵动起来的软件技术上，所涉及的技术包括以下几项：

语音识别、语义理解：让虚拟数字人听到并理解用户的需求；

语音合成：让虚拟数字人通过语言的形式表达出来；

图像识别：让虚拟数字人知道用户在做什么；

3D驱动：帮助虚拟数字人在发出声音以外，驱动身体做出一些肢体语言和表情动作，让虚拟数字人看起来更加真实。

总体而言，虚拟数字人技术从基础到应用分为三个层级。

虚拟数字人技术从基础到应用的三个层级

冯铮告诉记者，基础层涉及软件和硬件供应商。软件方面做 3D 渲染的游戏引擎Unity 和 Unreal；硬件方面有诺亦腾和Vicon；影视剧中对演员动作进行捕捉时身上穿戴的设备就是来自这些硬件公司。

中间层是技术服务商。他们整合基础技术来帮助其他公司制作并驱动自己的虚拟数字人形象。代表公司有小K动捕，支持用户用PC端的摄像头捕捉人脸动作，从而驱动小K内置的一些数字形象，做出半身的虚拟数字人表演。实现这一效果的门槛比较低，属于入门级别。相芯科技支持开发者提供虚拟形象从“捏人”到驱动的全方位技术，这一领域的代表企业还有小冰、超参数等，该技术更强调AI的角度，驱动支持虚拟数字人和真人进行交互。

最上层是运营商，目前还以虚拟偶像为主。包括抖音上原生的虚拟偶像“柳夜熙”，背后的运营商是一家MCN机构。AYAYI从小红书出道，从时尚潮流角度做了很多探索。翎Ling和背后的母公司次世文化，最早开始探索超写实国风虚拟数字人，并且持续探索更多可以AI交互的虚拟形象，比如虚拟DJ purple等。

从L1-L5，虚拟数字人的图灵挑战

商汤科技数字空间事业群数字文娱事业部总经理栾青博士告诉记者，虚拟数字人的拟人化，以及制作的自动化程度高低反映数字人系统整体进化和发展水平，代表着数字技术综合运用能力和成熟度体现。根据拟人化和自动化两个维度，商汤将虚拟数字人分成L1-L5五个等级(如图1)。

其中，商汤将L4和L5等级的虚拟数字人统称为“AI数字人”。“他们”不仅具备高度的拟人化呈现，在形象、动作和智力层面都更接近于真人水平，能够听懂、看懂、有记忆、自学习、与人进行自然交互；同时，在制作流程中也融合了大量的人工智能算法技术来提升虚拟数字人的生产效率，降低虚拟数字人的制作成本。只有达到L4级别及以上的虚拟数字人才能真正走入千行百业，在消费和产业领域大放异彩。多模态交互、自我学习、AIGC（利用AI技术自动生成内容生产方式）是AI虚拟数字人的三大基本特征。

首先，在应用层面，多模态交互是AI虚拟数字人的核心力。具备足够自然和拟真的多模态交互能力，是数字人在更广泛的应用场景中逐步替代真人角色的关键。所谓“多模态交互”，即是将深度学习神经网络和计算机图形学相结合，充分模拟人与人之间自然真实的交互方式，实现“听得懂，看得见，说得出”的人机交互效果。

拥有多模态交互能力的AI虚拟数字人，不仅能够呈现传统语音对话无法展现的多媒体信息，结合视觉AI技术，还能完成身份识别、手势识别、情感识别等多项交互任务，让交互过程更加丰富且高效。与此同时，可视化的写实形象也赋予了AI虚拟数字人独特的情感温度，有助于建立人性化的情感纽带。

其次，在价值层面，自主学习是AI虚拟数字人的创造力。每一个AI数字人背后都有一个“最强大脑”，可以基于自然语言处理、知识图谱等技术，结合不同领域的知识库和海量数据训练，进行深度学习和自我迭代，让自己变得越来越“聪明”，越来越专业，从而能够快速适应瞬息万变的市场变化和细分化的场景需求，不断打破即有的应用边界，为用户持续创造新价值和新体验。

第三，在制作层面，AIGC是AI虚拟数字人的生产力。高制作成本和长制作周期掣肘数字人产业规模化发展。传统流程中，每一个虚拟数字人依赖人工“雕琢”而成。其中，仅3D建模就要花费数月时间，而打造一个高精度、高保真的3D数字人形象，动辄需要百万元规模的资金投入。

AI重塑生产流程，辅助虚拟数字人自动化生成，是AI数字人生产力之本，可以大幅加速数字人生产，降低制作门槛和成本投入。商汤科技通过领先的AI技术能力基于少量照片的面部扫描，即可快速生成虚拟数字人高精度3D模型，将传统3～6个月的制作周期缩短到仅仅15天完成。

应用篇-虚拟数字人的本质是降本增效

随着人工智能及相关技术的逐步成熟，通过自主学习和认知泛化，AI数字人将全面突破应用边界，升级成为数字世界的超级助手。

在“Bilibili World 2021大型线下嘉年华”活动中，玩家通过B站MR眼镜盒子，即刻进入虚实融合的场景，与虚拟偶像进行亲密互动。

在这里，B站当红VirtualReal虚拟偶像阿梓将指引玩家，分别进入有着机器人大脑的金克茜Jinxy、美丽可爱的露露娜Ruruna、歌势舞担的鹤鹤女侠鹤森Mori等VUP的直播间。在商汤创新的“AI+MR”技术支持下，这些平日里只能以二维卡通形象出现在弹幕视频里的虚拟VUP（虚拟UP主），首次以鲜活的三维形象来到玩家眼前，直播间的桌椅、床、沙发也都逼真呈现，甚至连科幻、温馨、艺术等不同装修风格,也都精妙还原。

我们为什么还要“智人”

栾青说，“符合人自然交流习惯的人机交互形态是我们一直追求的目标。”

在各种商业服务场景中，人们对体验感的要求更为强烈。当面对一个三维、可多模态交互的形象时，人们可以获得比声音更为丰富的体验。在银行、商超等服务型企业，AI智能语音虚拟数字人变身柜台前亲切的服务员，通过语音交互给用户带来更好的体验，而不是让用户在屏幕上点按钮来办事。栾青说：“在服务中，人们更希望与人亲近、自然地交流。可以为客户体验提升，商业品牌价值的升级带来新的价值”。

2022年1月，商汤AI虚拟数字人“员工”正式入职宁波银行上海分行，“担任”线下大堂经理。大堂经理每天的工作中，有很大一部分是回答重复性的提问，提供常规的业务办理引导服务，今后这些简单重复的工作便可以交由虚拟数字人解决，帮助企业降低运营成本。遇到特殊问题时，AI虚拟数字人将启动远程真人接管功能，提供专属解答。

栾青说，除银行场景外，虚拟数字人还可在文旅场景中担任导游，在医疗领域扮演陪护员，在商场和企业担任导购，在健身房化身健身教练等，应对大量标准性和重复性的工作，解放真人劳动力，创造全新的用户体验。在各种社交媒体平台上，手机端中看到的AI虚拟数字人也已经成为日常生活中最广泛应用的产品。

AI虚拟数字人的三大应用方向

栾青介绍，根据使用目的和底层逻辑不同，AI数字人可大致分为三大应用方向（如图2）。

方向一：主要以创建IP影响力或打造粉丝经济为目的的AI虚拟数字人应用，包括虚拟偶像、虚拟KOL、虚拟演员、虚拟主播等。

相对真人IP，虚拟数字人IP的可塑性更强。包括形象、人设及背景故事的创作自由度为虚拟数字人IP的商业创新带来了更大的想象空间，重塑粉丝经济。例如，可邀请用户或粉丝一起参与虚拟数字人IP的创建和孵化过程，通过“共创”的方式建立起IP与用户间的强情感关联，让IP更具真实感和生命力。尤其在品牌自建虚拟数字人IP路径中，契合品牌调性和消费者心理预期的数字人IP，更有利于品牌理念的有效传递和快速破圈，进而获得在转化层面的更多收益。同时，虚拟数字人IP也更具可控性。“他们”不会受到人设崩塌、负面新闻、档期或合约问题等不确定性因素影响，商业安全性和稳定性高。

方向二：主要以替代真人服务、实现降本增效为目的的AI虚拟数字人应用，包括虚拟客服、虚拟前台、虚拟导游、虚拟主持人等。

相对真人服务，AI虚拟数字人具有较高的灵活度。“他们”可以随时随地上岗工作，不受主观、时间、环境或外界不确定因素影响，企业可控性强，可以保证服务的稳定性和连续性，也能降低企业因不确定性所带来的隐性成本问题。同时，AI虚拟数字人的边际效益递增现象显著。一方面，虽然前期虚拟数字人制作需要一定投入，但数字资产复制使用的边际成本很低，单个虚拟数字人的可变成本也低于真人；另一方面，正如上文所述，AI虚拟数字人具有较强的自主学习能力，结合知识图谱技术和数据训练，可以不断优化服务精度、扩展业务广度，从而提升企业虚拟数字人力资产的投入产出效率。

方向三：随着人工智能及相关技术的逐步成熟，通过自主学习和认知泛化，AI虚拟数字人将全面突破应用边界，升级成为数字世界的超级助手。

与前两个应用方向不同，AI虚拟数字人的第三大应用方向不再仅遵循真实世界的“替代”逻辑，初衷更在于满足用户与数字世界的连接和交互需求，实现对于数字世界的直接操作。虚拟数字人可以“随机应变”地针对用户个性化、多样化需求，提供全天候、全方位的人性化陪伴和智能化服务，成为人们通向虚实融合世界的超级入口。

结语-认清产业核心，找准投资赛道

AI驱动的动作、语言、感知等能力，是虚拟数字人的“大脑”，在未来将会成为主流。

在虚拟数字人的产业发展中，AI 驱动的虚拟角色是虚拟世界的核心交互方式，也是虚拟世界的 “机器人”，他们赋能实体生活。这其中，AI 驱动的动作、语言、感知等能力，是虚拟数字人的 “大脑”，在未来将会成为主流。而逻辑性与规律性的场景，例如虚拟 DJ、虚拟品牌代言人、虚拟健身教练等，未来，AI 技术会成为“标配”。

从投资方向上来看，冯铮介绍，顺为资本抓住了两端：一端围绕虚拟数字人的制作层面，即3D 模型生成和驱动技术，核心是能够实现更快、更低成本的制作与驱动 3D 模型。慧夜科技作为一家虚拟生命AI驱动技术服务商，打造了一套 “生成式深度神经网络框架”。虚拟角色基于这一框架，可以从简单到复杂地学习人类的运动模式。在不需要真人动捕的前提下，在系统中输入一段音乐，虚拟角色就会根据旋律自动起舞，提供 “赋予虚拟数字人交互和表演能力” 的解决方案。另一端的投资将围绕虚拟数字人的应用，期待更多有技术能力和行业认知的团队，能够在细分领域中创建出有社会价值的虚拟机器人。

虚拟数字人要发展，还要取决于创造虚拟数字人的效率。栾青认为，目前创造一个高精虚拟数字人的成本很高，时间周期相对长，如果还要达成智能化，所需要的时间周期将更长。

这也是虚拟数字人在行业推广时遇到的一个瓶颈。提供虚拟数字人服务的企业希望这一技术能够得到普及，但核心还是要降本增效，提升人与人交流的效率，提升企业的运营效率。栾青说，“目前商汤正在通过AI的方式，建立虚拟数字人的快速生成平台。希望通过一些简单的方式就能让虚拟数字人拥有各个行业知识，方便各行各业快速拥有一个专业的数字人。”