// 新刊推荐
// 中经传媒智库

Sora带来的“小震撼”,会让现实不复存在吗?

原创 作者:王雅迪 石丹 / 发布时间:2024-03-07/ 浏览次数:0
一名身着时尚黑皮衣、内搭亮丽红裙的女子,戴着黑色墨镜、手拿黑色链条包行走在雨后夜晚的东京街头,地面的积水映出她的身影和绚丽的霓虹灯。短短60秒的视频刷爆朋友圈,这不是某位时尚博主的走红,而是AI再次带给人类的“小震撼”。
 
北京时间2月16日凌晨,OpenAI发布文生视频大模型Sora,该视频便来源于此。只需要输入一段文本,Sora便根据文本提示创建出这段具有主体细节并动作连贯,能够“以假乱真”的街头视频。尽管目前Sora处于安全测试阶段,仅向有限的创作者开放,但仍在国内科技圈掀起巨浪。
 
实际上,此次Sora问世并不涉及新技术,采用的技术模型非独家,为何却让不少人发出“现实将被取代”的担忧与惊叹?人工智能升级再度引发人类对失业潮的恐惧,现实果真如此吗?更好的机器究竟会帮助人类制造出更胜一筹的机器助推生产力,还是使人类陷入自己制造的困境中挣扎求生,这是每一次新技术出现的必问题,答案一直在路上。
 
没有新技术,Sora为何惊艳世界?
 
Sora扩大了视频模型的使用群体,它不再是一项专业技术,而与短视频一般,可能成为人人皆可触及的应用。
 
Sora官网显示,Sora生成的视频有以下特征,即可生成1分钟的长视频;可以在单个生成的视频中创建多个镜头;能够生成具有多个角色、特定类型的运动,同时呈现主题和背景的准确细节;不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式,也就是不会出现违反世界客观规律的视觉信息。
 
AI生成视频的技术路线主要经历了四个阶段,即循环网络、生成对抗网络、自回归Transformer和扩散模型,这些都贯穿OpenAI早年的技术探索中。此次震惊四座的Sora并未采取新技术,而是沿用了过去的技术积累,它采用的便是“扩散+Transformer”的视频生成大模型技术路线。
 
扩散模型以文本为输入条件,在不同持续时间、分辨率和纵横比的视频和图像上进行联合训练。同时,引入了一种Transformer架构,对视频的时空序列包和图像潜在编码进行操作。这一点与GPT模型类似,可以释放出卓越的扩展性能。
 
简单来讲,虽然Sora是一个视频模型,但其训练方式与ChatGPT这类语言模型相似。不同之处在于,Sora使用的训练数据是视频和图片,而语言模型则是文本数据。
 
从训练过程看,首先需要对视觉数据(即视频和图片)进行压缩,然后将简化后的视频分解成许多小块(称为视觉补丁),每个小块包含视频的一小部分画面和时间,就像是将一段故事分成一幕幕小片段一样。这样可以使Sora能够在不同分辨率、持续时间和纵横比的视频和图像上进行训练,有助于电脑更容易学习和理解视频中的信息。
 
训练视频模型需要大量且带有相应字幕的视频,因此OpenAI将文生图模型DALL·E3的重新标注技术引入到了Sora。首先训练一个能生成高度描述性文本的模型,然后用它为训练集中的所有视频生成文本描述,类似于给视频配上一本详细的说明书。
 
与DALL·E3类似,OpenAI也利用GPT将用户的简短提示转化为更长、更详细的说明,然后这些说明会被送到视频模型中。这样Sora能够更精准地还原用户的文本提示,生成高质量的长视频。
 
通过创新性地将ChatGPT、DALL·E3等模型融合在一起,Sora向外界展现了三个核心功能,即视频生成、视频合成及图片生成。这些功能的背后是Sora对现实物理世界的理解和模拟,OpenAI坦言:“我们相信这一能力将是实现AGI(人工通用智能)的重要里程碑。”
 
DCCI互联网研究院院长刘兴亮向《商学院》记者表示,Sora惊艳之处有三点,其一,此前的视频模型复杂,只有专业人员才能生成质量比较高的视频,但Sora降低了使用门槛,一段文字或一张图片就能生成视频;其二,过往的视频生成工具多是针对现有视频的再创作,而Sora则是基于理解现实世界的全新创作;其三,它生成的视频细节精准、动作流畅,呈现效果更佳。
 
这意味着,Sora扩大了视频模型的使用群体,它不再是一项专业技术,而与短视频一般,可能成为人人皆可触及的应用。更重要的是,它拥有AGI世界建模的巨大潜力,通过了解世界运行的底层物理规律,学会预测下一个时刻的变化,不少人类发出“颠覆现实”的感叹正因如此。
 
畅想未来:AI或成基础设施,重塑城市
 
Sora展现出的涌现能力可能为计算机视觉领域研究提供方向,成为未来视频与模拟领域(例如自动驾驶)的统一范式。
 
Sora带来的1分钟震撼,或许会改变多个领域的生产方式。360公司创始人周鸿祎更是感叹,“Sora意味着AGI实现将从10年缩短到两三年”。
 
既然是视频模型,Sora首先会影响到的便是与之相关的行业,当下短视频、微短剧等火热赛道会迎来AI挑战。以往需要大量场景搭建和人力完成的摄制工作,AI用一句话或许就可以搞定。
 
北京华夏工联网智能技术研究院院长王喜文向《商学院》表示,该技术能帮助电影制作人创建场景和情节,为电影制作提供更加真实和自然的角色表现,以及更逼真的视觉效果;能助力广告制作人更好地理解目标受众的需求和喜好,以提供更加个性化的广告体验;游戏开发者也可以借此创建真实和自然的游戏场景和角色表现,提供更加沉浸式的游戏体验,并通过更好地理解游戏玩家的需求和反馈,以优化游戏设计。
 
在技术协同的发展下,Sora与AR、VR结合,在脑机交互、元宇宙等领域蕴藏着无限可能。至于这种影响是否真的是颠覆性、打败现实的存在,还取决于许多因素,包括技术本身的成熟度、应用场景的限制、人类的创造力和想象力等,仍待观察,但它带来的畅想不只是视频本身,还有整个城市。
 
交通如同城市的血液,是城市流动的标志。Sora展现出的涌现能力可能为计算机视觉领域研究提供方向,成为未来视频与模拟领域(例如自动驾驶)的统一范式。正如周鸿祎所言,“这次Sora对物理世界的模拟,至少将会对机器人具身智能(通过创建软硬件结合的智能体)和自动驾驶带来巨大的影响。”
 
在他看来,原来的自动驾驶技术过度强调感知层面,而没有工作在认知层面。其实人在驾驶汽车的时候,很多判断是基于对这个世界的理解。比如对方的速度怎么样,能否发生碰撞,碰撞严重性如何,如果没有对世界的理解就很难做出一个真正的无人驾驶。
 
这是当前自动驾驶与真人司机之间的区别,如果利用Sora生成模拟现实世界的视频,以此训练自动驾驶的能力,或许会大大提升收集道路数据和视频训练的效率,它所拥有的交互能力也会影响到现有的自动驾驶模型,更接近人类的驾驶体验。
 
一座座建筑好比城市的各个血管系统,维持着城市运转。当真正的无人驾驶到来时,整个城市也要随之进行智慧升级,以更好地通过数字管理城市道路和各行各业,数字孪生城市不再是空想乌托邦。
 
刘兴亮认为,通过创建一个与物理实体城市外观、行动和思想一致的虚拟城市,实现对现实世界的监测、诊断、回溯、预测和决策控制。例如,管理者可以通过数字系统中的视频信息,更加直观地看到城市中各个地区的人口分布细节,而不仅仅是一个冰冷的数字。在“数字孪生城市”中,物理空间和社会空间都能以信息的形式呈现出来。
 
在与人类生活息息相关的化学、物理、生物医学等学科的研究上,基于对人类知识和世界模型的理解,大模型的应用潜力会更加广泛,从而使该技术无形中散布在城市各个角落。
 
刘兴亮认为,互联网兴起之后,在全世界范围内围绕上网建立了无处不在的基站,网络连接设备、终端使用设备以及与此相关的应用无数。可以设想,在接下来的社会发展期,人工智能设备以及与此相关的应用和服务,将逐步成为社会生活新的基础设施。
 
医疗、教育等行业最大的问题就是资源分布不均衡,未来有了类似工具后,便可以缩小区域差距。例如,将北京的名师资源和相关知识注入到大模型中,就可以实现给偏远地区的孩子进行一对一视频教学,并因材施教;在医疗领域,有了AI的辅助模拟,医学生在做解剖试验时,不必真的解剖小动物也能达到逼真效果。
 
在AI时代的未来城市,居民或许可以在数字空间中工作创业、购物娱乐、交友学习等,孕育着数实融合的城市新形态在技术中萌芽。不过,未来尚未到来,畅想所带来的憧憬与担忧能否成为现实,还需要回到当下。
 
重返现实:颠覆?为时尚早
 
相比于大语言模型,视频模型的生成面临更多难点:时空复杂性、视觉多样性和连续性、动态范围和细节处理、控制性和交互性、数据和计算资源以及真实感与创新性的平衡。
 
梦想可以天花乱坠,而若想实现智慧城市的理想,则不得不正视现实的难关。Sora当前仍存在弱点,OpenAI也承认它的不完美。
 
OpenAI官网显示,Sora的弱点在于,它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如,一个人可能会咬一口饼干,但之后,饼干可能没有咬痕。此外,该模型还可能混淆提示的空间细节,例如左右混淆,并且可能难以精确描述随着时间推移发生的事件。这些缺陷可能导致Sora生成一些不合逻辑的东西,比如一个人在跑步机上跑错方向,以不自然的方式改变主题,甚至出现凭空消失的现象。
 
相比于大语言模型,视频模型的生成面临更多难点,王喜文将其归纳为六大挑战,分别为时空复杂性、视觉多样性和连续性、动态范围和细节处理、控制性和交互性、数据和计算资源以及真实感与创新性的平衡。
 
例如,在时空复杂性层面,由于视频是三维数据,包含了时间和空间信息,因此在生成视频时,不仅要考虑单个帧的内容,还要考虑帧与帧之间的时序关系和空间关系,这增加了模型理解和生成的复杂性;在控制性和交互性上,视频模型需要具有一定的可控性,能够根据用户的输入生成相应的视频内容,并应当能够与用户进行交互,这要求模型具有较高的智能和适应性。
 
此外,视频数据通常比文本数据大得多,这需要更多的数据和计算资源来训练视频模型。而且,视频模型需要足够的训练数据来学习视频的内在规律和特征。在生成内容时,保证真实感的同时要有一定的创新性,这需要模型能够理解和模仿现实世界的复杂性,并能创造新的内容。
 
技术层面的难度让“Sora们”面向公众开放还有一段距离,且从国内上一轮大语言模型的落地来看,中国大模型虽然不少,但基于大模型开发出来的AI原生应用却非常少,远未形成在C端的普遍认知。
 
记者从百度处了解到,百度创始人、董事长兼首席执行官李彦宏曾公开表示:“我们需要100万量级的AI原生应用,但是不需要100个大模型。”他指出,AI原生应用是基于大模型智能涌现后产生的理解、生成、逻辑和记忆能力而开发出来的应用,这些能力是过去的时代所不具备的,因而才能打开无限的创新空间。
 
目前,百度已上线了大模型插件平台,是一类特殊的AI原生应用。文心大模型4.0包含览卷文档、E言易图、说图解画、一镜流影等多个插件,其中“一镜流影”可以用AI文字一键创作生成视频,不过暂时仅支持生成30s内的视频。记者多番尝试后发现,目前该插件生成能力有限,经常出现“当前您的指令超出了插件预设能力范围”的提示。
 
据报道,腾讯2024年大模型的首要目标也是要进行规模化的应用,核心目标是怎么样让企业能够用得好、用得便宜,同时把周围大模型生态构建好。
 
AI时代的技术栈分为四层,即芯片层、框架层、模型层和应用层。正如李彦宏所说,无论是芯片也好、框架也好、模型也好,都是需要AI应用来驱动的。只有通过更多的场景落地应用,才可以形成更大的数据飞轮,才能够让芯片做到够用、好用。
 
刘兴亮也指出,Sora给国内厂商带来警示,它是一种对于思维世界的震撼,但依旧需要和具体行业应用结合起来。AI未来的发展不只是强调技术,更多的是要做强应用,才能让科技飞入寻常百姓家。
 
Sora们仍然无法完全取代人类的创造力和想象力,以开放和理性的态度看待技术的发展,用好它、拥抱它,同时也要注意平衡其潜在的风险和利益。这样在浪潮袭来时,才能有备无患。
 
科技平权时代,AI就像预制菜
 
Sora确实可能导致某些传统职业的减少或者替代,但也会催生新的就业机会。这种就业变化是科技进步的常态,也有助于经济的持续发展和就业机会的转型。
 
当科技重塑生产方式时,它不再是少数人的特权,人人触手可及。正如上文所述,Sora降低了创作者的使用门槛,影视、广告、短剧等不再是专业从业人员的专属,只要输入一段文字就可能收获一段想要的视频。
 
科技平权时代,科技服务于所有人,而不是仅仅由少数人享受其专利和后续带来的好处,每个人都有机会体验到新技术。这也带来另一种层面的担忧,传统影视、广告营销、游戏娱乐等大有应用前景的领域,是否会迎来新的失业潮。
 
资深插画师@画者不语向《商学院》记者坦言,以教授线上课程学员的数量变化来看,去年以来下降幅度在30%左右,很多学员报课意愿降低。因为AI带来的文生图、文生视频等功能,导致他们认为未来插画师的工作前景堪忧,因此学习欲望不再强烈。
 
在商业领域,他将AI比拟成预制菜,预制菜出来后,在家也能快速吃到饭店的菜品。AI做出来的图片与此类似,它在某种程度上满足部分对图片质量要求不高的商业需求,比如店铺的宣传图和招牌等。然而,对食材和口味有要求的人还是会选择非预制菜。
 
AI在艺术领域的替代性可能更低,因为人们在判断一件艺术品的时候,不只是看一个“结果”,还会关注“过程”。例如,完全一样的图样,传统手绘与电脑板绘带给人的感觉大不相同。他认为,一件艺术品的价值绝不仅仅是“绘画结果”,还包含作为人的观念、动作、花费的时间以及画所处的时间、空间等。
 
《AI大模型对我国劳动力市场潜在影响研究》报告(以下简称报告)显示,21.1%的受访者认为未来一年AI不会对自己工作产生太大影响。时间周期拉长至未来五年,这一比例降至18.7%。而不论是未来一年还是五年,认为其从事工作将被AI替代的比例近五成。
 
这也从侧面说明,我国劳动力市场对人工智能新技术的适应性还较弱,同时数据显示,与职场“前浪”相比,“95后”年轻人对AI工具的了解更深。
 
王喜文认为,Sora确实可能导致某些传统职业的减少或者替代,但也会催生新的就业机会。这种就业变化是科技进步的常态,也有助于经济的持续发展和就业机会的转型。AI创作指导人员、AI内容审核和监管人员、AI故事设计师、AI生成视频数据标注和整理人员、AI生成视频技术的研发人员等,这些新工种都需要人工智能技术的专业知识和创造力。
 
作为相关从业者,@画者不语对新科技的到来持乐观态度。他认为挑战是必然的,但还是要正视技术的变革而不只是担忧,需要根据技术的发展迎难而上,顺应它才能开拓更多的可能性。
 
报告显示,65.8%的受访者表示,将参加AI工具使用技能的培训课程,占比最高。还有47.2%表示将学习一个不容易被AI替代的新专业技能,42.9%表示将转向不容易被AI替代的新职业方向,另辟赛道。
 
正如刘兴亮所言,“淘汰你的不是AI,而是那些掌握了AI工具的人”。过去的20年,互联网真正把自己变成了基础设施,每个人已经离不开它。AI时代,一旦人工智能解放了更多人的脑力劳动时间,让社会生产力得到更大提升,它的普及将无法避免,人们会自然而然地接受它,并以此作为生活与工作的必要手段。
 
回望历史,每一次工业革命都会带来劳动力市场的变革,不管是ChatGPT还是Sora,它们对真实世界的模拟注定会掀起波浪,但促使城市流动的依旧是走上街头的人类。

除《商学院》杂志署名文章外,其他文章为作者独立观点不代表《商学院》杂志立场,未经允许不得转载。版权所有

欢迎关注平台微信公众号

 点赞 30
 收藏 20