// 新刊推荐
// 中经传媒智库

“百模大战”,掀动资本波澜

原创 作者:刘青青 石丹 / 发布时间:2023-08-07/ 浏览次数:0
 
轰轰烈烈的全球大模型浪潮已经持续了大半年,从赫赫有名的OpenAI、Google、Anthropic、Meta,到国内互联网科技巨头百度、阿里、腾讯、京东、华为、360……各种大模型产品层出不穷。
 
在这场“百模大战”里,国内大模型活力惊人,在创业、投资、融资、应用等领域如火如荼。但是我们也能清楚地看到,国内大模型与国际技术水平的差距。
 
在人工智能时代,大模型的出现仿佛人类社会走进第五次工业革命,有一些从未有过的东西蓬勃兴起,有一些习以为常的东西骤然消失,还有一些担忧挥之不去,但是科技和社会的进步依旧向前。
 
“百模大战”
 
国内大模型产品遍地开花,已经落地的大模型产品数量远远超过了北美、欧洲地区。
 
大模型浪潮还在加速奔涌。毫无疑问,美国在AI大模型领域表现强悍。2022年底,OpenAI发布的ChatGPT掀起全球大模型浪潮,此后2023年3月,OpenAI发布万亿级大模型GPT-4;Anthropic发布Claude 2;Google发布当前最大的视觉语言模型PalM-E;Meta推出AI语言模型 LLaMA和视觉模型SAM。
 
除此之外,韩国科技巨头 Kakao 旗下人工智能部门Kakao Brain宣布推出AI图像生成器 Karlo 2.0;韩国搜索巨头NAVER发布语言大模型HyperCLOVA;LG集团人工智能智库LG AI Research 推出拥有3000亿参数的Exaone多模态模型;德国初创公司Aleph Alpha发布了一款拥有700亿参数的预训练模型Luminous;欧洲AI初创公司 Hugging Face创建BLOOM大模型……
 
在国内,大模型产品更是接连落地,各大互联网科技巨头纷纷入局。2023年3月,基于文心大模型,百度发布“文心一言”,成为中国第一个类ChatGPT产品。此后华为发布“盘古”大模型、京东发布“言犀产业”大模型、阿里发布“通义千问”大模型、科大讯飞发布“星火认知”大模型、360公司发布通用大模型“360智脑”。除此之外,腾讯也传出发布大模型产品“混元助手(HunyuanAide)”的消息。
 
同时,商汤宣布推出大模型“商汤日日新”、昆仑万维和奇点智源合作发布“天工3.5”、知乎联合面壁智能发布中文大模型“知海图AI”、网易发布“玉言”大模型、达观数据推出“曹植”系统、澜舟科技发布孟子对话大模型“MChat”……
 
“百模大战”硝烟四起,大模型之争如火如荼。
 
值得一提的是,在大厂之外,国内还有另外一股“大模型势力”。
 
引力创投合伙人、微博前副总经理、《超越想象的GPT医疗》译者芦义指出,在国内大模型浪潮当中,高校的研究走在了互联网科技巨头的前面。例如清华大学的ChatGLM-6B、复旦大学的MOSS大模型、香港大学的SGPT大模型等。这些高校的研究更早于互联网科技巨头,也积累了更多的经验和技术。
 
芦义直言,国内大模型产品遍地开花,已经落地的大模型产品数量远远超过了北美、欧洲地区。但国内的大模型公司多是互联网科技巨头,它们在原本的商业基础上进军AIGC领域,而国外大模型公司则大多属于研究机构和AI初创公司,因此形成了不同的风格特点。
 
“例如,国外大模型多在实验室中打磨,常常作为技术研究成果来展现。而中国互联网科技巨头依托产业发展,大模型产品在商业当中得到了很大的应用。”芦义表示。
 
产业为王
 
目前大模型处于“百花争艳”的状态,站在这个时间点,企业应该思考的不是技术追赶,而是产业突破。
 
国产大模型大多已经接入各种类型的商业应用。
 
对内,各大互联网科技巨头开始将大模型投入自身业务。例如阿里的“通义千问”大模型将首先部署于阿里的数码协同办公和应用开发平台“钉钉”,以及物联网智能家居终端机“天猫精灵”上,后续它还将接入阿里生态的所有商业应用。百度CEO李彦宏更是直言,百度首先要把全部产品用大模型重做一遍,“不是整合,不是接入,而是重做、重构。”
 
对外,一些大模型产品也被迅速投入到商业场景中进行落地。在国内,已经有15万家企业申请接入百度“文心一言”,其中有超过300家生态合作伙伴,一起探索了超400个具体的落地场景。
 
5月中旬,360公司创始人周鸿祎提出:每个城市、每个政府部门都会有自己的专有大模型,大模型和政府的业务系统融合,还会变成政府各个业务板块的“副驾驶”,甚至成为智慧政府、智慧城市的总调度室,形成城市级GPT。
 
7月初,华为云发布“盘古大模型3.0”,提出深耕行业。据了解,此前华为云已陆续推出了矿山、药物分子、电力、气象、海浪、铁路等大模型,7月初又发布政务、金融、制造大模型,持续为业界贡献先进的算法和解决方案。
 
7月中旬,京东推出“言犀”大模型,提出以完整工具链助推产业价值创造。京东的言犀AI开发计算平台,能够为客户的大模型开发和行业应用开发提供定制化解决方案。它既具备行业知识库,沉淀了京东自身在零售、物流、健康、金融等多个行业的Know-How,又具备了100多种训练和推理优化工具,能将通用模型迅速转化为专业模型。
 
弗若斯特沙利文(Frost & Sullivan)发布的《AI 大模型市场研究报告(2023)——迈向通用人工智能,大模型拉开新时代序幕》指出,大模型“基础设施—底层技术—基础通用—垂直应用”发展路线逐渐清晰,国内各厂商加速战略布局,加大资金和技术投入,迎头赶上全球大模型产业化浪潮,本土化大模型迎来发展新机遇。
 
京东集团副总裁、京东科技智能服务与产品部负责人何晓冬博士表示,目前大模型处于“百花争艳”的状态,站在这个时间点,企业应该思考的不是技术追赶,而是产业突破。技术上各家都是基于Transformer做大规模预训练,并不断地进行调优。
 
可以看到,国内互联网巨头的大模型正接连投入“实战”,在商业场景落地方面不断打磨,拉开大模型赋能产业的序幕。
 
融资火热
 
中国大模型企业正备受资本青睐,大模型创业风潮涌动。
 
值得一提的是,“百模大战”也是一场“烧钱”的竞赛,充沛的算力、海量的训练参数、坚实的硬件,还有顶尖的AI人才,无一不是“经费在燃烧”。
 
以重量级模型GPT-4为例,其拥有1.8万亿巨量参数,13万亿token(自然语言处理中的“词单元”)的训练数据。以H100物理机每小时1美元计算,一次的训练成本就高达6300万美元(约人民币4.51亿元)。
 
芦义指出,OpenAI发布大模型GPT-4之前已经耗资上百亿美元,不过随着大模型开源和技术的不断发展,进入此领域的资金门槛会越来越低。目前训练出一个可以投入运行的大模型,投入资金大约在千万美元,就是简单一些的模型也在几百万美元左右。
 
与此相对应的是,关于大模型的投融资愈发火热,投融界仿佛兴起了一股“围猎”大模型的风潮,AI大模型公司的融资消息不绝于耳。
 
2023年初,微软第三次“加仓”OpenAI。此次投资后,微软累计在OpenAI上投资100多亿美元。4月,OpenAI又完成超百亿美元融资,估值达到270亿~290亿美元(约合人民币1900亿~2000亿元)。参与本轮融资的风投公司还包括老虎全球管理、红杉资本、加州Andreessen Horowitz、纽约Thrive和K2Global,Founders Fund等。
 
而OpenAI的“强敌”Anthropic也在5月宣布获得4.5亿美元C轮融资。此轮融资由Spark Capital领投,谷歌、Salesforce Ventures,Sound Ventures,Zoom Ventures等参投。
 
有趣的是,同样加入“大模型之战”的Google,不仅发布了5620亿参数的“史上最大AI多模态模型”PaLM-E,而且还四处“押宝”其他AI大模型初创公司。公开资料显示,Google累计向Anthropic投资了3亿至4亿美元,同时还投资了AI视频生成独角兽Runway,以及Redpanda Data,Typeface,Infisical,Warp,Speakeasy等涉及AI、数据、安全、IT等领域的企业。
 
即便是连大模型产品都还没有落地的加拿大AI初创公司Cohere,也在6月宣布完成2.7亿美元的C轮融资,估值达到21亿美元。本轮融资由加拿大全栈风险投资机构Inovia Capital领投,互联网软件巨头Salesforce、人工智能计算公司英伟达、硅谷公司Index Ventures等多家全球机构和战略投资者参投。
 
值得一提的是,Cohere此前已经吸引了多家知名机构的投资,投资者涵盖老虎环球基金、英伟达、“AI教父”Geoffrey Hinton、斯坦福大学教授李飞飞、加州大学伯克利分校教授Pieter Abbeel等。
 
在国内,AI大模型也正在成为中国硬科技投资的一个新风向,尤其是在AI初创企业当中,更是资本涌动。
 
据了解,美团联合创始人王慧文收购了AI创业公司光年;创新工厂董事长李开复创办零一万物,建立Project AI 2.0大语言模型;前搜狗CEO王小川创立AI公司百川智能;京东AI前掌门人周伯文建立AI公司衔远科技……大量互联网大佬下场“大模型”试水。
在刚过去的6月里,AI初创大模型公司月之暗面完成首轮市场融资,获红杉、真格等一线 VC 的押注,市场估值被曝约3亿美元;AI初创企业生数科技宣布完成近亿元人民币的天使轮融资,该笔融资由蚂蚁集团领投,百度发起的 BV 百度风投、卓源资本跟投,目前估值达1亿美元;AI 蛋白设计公司“域新说生物”已完成近千万元天使轮融资,投资方为九合创投。
 
除此之外,语言大模型企业澜舟科技在年初完成数亿元融资;通用大模型初创企业MiniMax完成新一轮融资,总规模超2.5亿美元,项目估值超过10亿美元,跻身AIGC独角兽行列;深言科技(DeepLang AI)近期获得腾讯的10亿元级别融资,其此前投资方还包括红杉资本、巨人联创、达晨创投、金山软件等知名机构。
 
总而言之,中国大模型企业正备受资本青睐,大模型创业风潮涌动。
 
仰望AI
 
中国大模型的发展整体依旧处于图文训练阶段,而将大模型产品融进千行百业,还将需要各大互联网科技公司进一步地实战打磨。
 
AI确实能够做到很多人类力有不逮的事情,比如背诵或者快速计算,但当前存在的问题也很突出,尤其是在听、说、读、写各个方面,即使最基础的文本回答,也常常有大模型给出胡编乱造的答案来。因此,大模型的发展依旧任重而道远。
 
在芦义看来,训练参数在70亿左右的大模型属于中等规模,可以在很多设备上“跑起来”。并且通过一些算法调整,在简单的使用场景下,这些大模型都可以做到快速问答。但是要真正投入市场,落地商业场景的大模型,其训练参数应达到650亿以上,而且大模型得到的数据训练越多,给出的答案越精准。
 
“在OpenAI的ChatGTP-3.5的版本上,已经能够看到希望。”芦义表示,一方面,在此之前,ChatGTP版本都是自动生成文本答案,与人类交流对话大相径庭,而现在ChatGTP-3.5已经能表现出很大的智能;另一方面,如果无法给出答案,大模型会通过互联网“外挂”搜寻和学习知识盲点,倘若依旧无法解决,大模型也会承认不知道而非“生成式胡编”。
 
有人将ChatGTP-3.5的更新看做是“奇点来临之前的一个小突破”,期待着在这个奇点上能“大力出奇迹”,促成新的技术、新的变革。而在商业落地方面,当语言模型刚刚诞生的时候,大模型的商业模式就已经悄然延伸。
 
芦义指出,首先,大模型在通过数据“喂养”和训练之后,需要有语言模型的配合才能够进行生成和表达。因此语言模型是大模型产品的基础,此前掀起风潮的ChatGPT就是语言大模型。国内互联网科技巨头能够通过大模型在内容创作、内容检索方面迅速革新。
 
其次,在能够表达文字的语言模型面世之后,图片也随之被训练。实际上,有了语言模型的基础,图片模型更加容易搭建,既可以用语言模型结合图片模型进行创作,也可以将不算尖端的语言模型直接拿来训练图片,变成图片模型,毕竟图片模型甚至不需要像语言模型一样具有完备的语言逻辑表述。
 
再次,在图文模型之后,多模态大模型成为下一步的方向。在视觉上,要让大模型“不光能看懂文字,也能看懂图片”;在听觉上,要让大模型“不光能看还能听”,接下来混入听、说、看、读、写各种感知都会陆续延展开来,这时候的大模型将会带来AI与现实世界的结合。
 
不过,目前来说,大模型的发展整体依旧处于图文训练阶段,而将大模型融进千行百业,还将需要各大互联网科技公司进一步地实战打磨。
 
“机械之心”
 
如今,人工智能正在构建人工智能。或许真的有一天,人类可以认同大模型也有一颗“机械之心”,能像人类一样进行正常的沟通交流甚至是生活。
 
很多人都知道,ChatGTP并不完美,但是它能明明白白地展示:人工智能发展方向正在从辨别式走向生成式。周鸿祎认为,GPT的出现代表着超级人工智能时代的到来。原来的人工智能只是“弱人工智能”,带来的影响也有限,而如今的大模型属于通用人工智能,在很多维度上已经超越了人类。GPT最大的意义是,人类第一次把所有的知识进行了重新编码和存储,现在GPT-4已经是世界上最聪明的“人”,这是一个巨大的拐点。
 
无论是生活还是商业,大模型仿佛都勾勒出一个美好的朦胧未来。作为湛庐文化/浙江科学技术出版社出版的《超越想象的GPT医疗》一书的译者,芦义已经在使用大模型进行工作了。在他看来,翻译不可能完全交给机器,要靠人来“咀嚼”文字,把关情绪。不过,大模型确实对于翻译工作的效率有了十倍甚至是几十倍的提升。作为助手,大模型可以准确地帮助译者归纳、汇总、摘要,也可以执行简单的推理翻译任务。
 
可以想象,未来大模型可以帮助人类做翻译、驾驶、清洁等工作,也可以如《超越想象的GPT医疗》一书中所述:成为医生忠诚的助手。
 
大算力、大模型、大数据让“智能涌现”(神经网络训练完成后,出现出乎意料的新行为功能,而这些行为可能与初始训练目标无关)。李彦宏指出,过去的人工智能是,如果想让机器学会什么技能,就教它什么技能。教过的有可能会,没教过的就肯定不会。在大模型出现“智能涌现”之后,以前没教过的技能,它也会了。
 
在大模型训练初期,还需要科研人员帮忙“喂饭”,但是如果大模型产品成熟之后,它就能够做到自我学习。
 
芦义也指出,语言模型重要的特点是它有通用推理能力,就像人有思考能力一样。大模型当然不会主动去做推理和思考,还需要人类来引导。随着语言模型的迭代提升,或许大模型的下一个版本就不再需要人类引导,而是学会了“自我思考”。
 
就像是人类学会了使用工具一样,大模型也会使用“外挂”。芦义认为,当它的算法不足以推断准确的信息时,它会去学习更新的数据,用数学内容解决数学问题,用电气知识解决电气问题,用历史信息回答历史问题。
 
“例如,人工智能系统AlphaDev,它使用强化学习来发现增强的计算机算法,把人类无法再提高的算法效率又提高了70%。这意味着人工智能生成的算法已经超越了人类,人工智能正在构建人工智能。未来将是AI自己改良AI,在某些方面人类不用参与也无法再参与。”芦义表示。
 
这其实是一个令人惊喜又恐惧的发现,但是或许真的有一天,人类可以认同大模型也有一颗“机械之心”,像人一样沟通交流甚至是生活。

除《商学院》杂志署名文章外,其他文章为作者独立观点不代表《商学院》杂志立场,未经允许不得转载。版权所有

欢迎关注平台微信公众号

 点赞 30
 收藏 20