EN
【原创研究】俯瞰AI大应用图谱:星星之火,正在燎原——AI应用研究连载(一)
来源: 合伙人 陈天伦日期:2024-03-16浏览量:1235

导引:“忽如一夜春风来,千树万树梨花开”——AI大模型的“星星之火”可谓正在燎原。从GPT-4到Claude3,再从开源的Llama到Gemma,通用大模型的基础能力在过去1年半中仍在快速演进,这无疑让驶向通用人工智能彼岸的船桨变得更加坚韧。


与大模型能力提升而相伴的是,如雨后春笋般的AI应用正在快速涌现。从 ChatGPT到Sora,普罗大众既为AI的巧夺天工而叹服,又难免心有余悸:我是否会被AI所取代?我该如何使用和驾驭AI?现在,抛开恐惧、兴奋和憧憬,AI应用已在爆发前夜。

AI应用爆发前夜:大模型竞赛“白热化”

1. 大模型的基础能力演进
过去1年半中,大模型成为技术革命快速凝聚的共识。所有人都坚信,通用大模型将成为庞大科技树生长的底座,甚至人工智能时代的“电力系统”。这种强大的技术共识引导了资本共识:政府和投资机构持续投入,大厂和创业公司集体“狂欢”。截至3月,国内已有超过238个基础大模型,“百模大战”如火如荼;但遗憾的是,最贵的并不一定是最好的,但最好的必然要求巨额的资本与人才投入。这场残酷的“拉力战”正在进入淘汰倒计时:不是“胜者为王”,而是“剩者为王”。

大模型基础能力持续演进:军备竞赛“白热化”

通用大模型的能力在很大程度上决定了应用的天花板。上至行业模型的接口调用和二次训练,下至场景应用的推理和微调,无不依赖于底层大模型的基础能力。纵然AI应用千变万化,所谓“万变不离其宗”,颇有“大模型兴“则“应用兴”的意味。从简单文本到长文本、复杂文本,再到文生代码、文生音、文生图、文生视频,主流大模型的基础能力模块不断强化。
中美大模型差距对比:能力短板或是投入重点方向

Sora的发布可谓“一石激起千层浪”,大面积引发对中美AI基础能力差距的担忧。我们整理了国内外基础大模型在不同维度的能力表现,并和海外的主流大模型进行对比,不难发现:

(1)大模型的文本能力相对成熟,文案整理和创作工具涌现

现阶段,中美大模型在信息搜索、逻辑推理、多语种翻译、文案创作、要点凝练等维度的差距较小;且国产模型在本土化语境和中文语料的处理上,甚至表现出一定优势。这也直接催化了国内以文本为中心的AI应用快速生长——

文案(含指定格式和文体)创作、转写,剧本或短视频脚本创作、改写,长文本理解、检索、查重,核心语料对比和分析等,在很大程度上提高文字类工作的生产效率。

(2)中美大模型差距尚存,主要集中在角色扮演、图像和视频

无论是以BAT为代表的大厂,还是以智谱华章、月之暗面为代表的创业企业,基本不具备角色扮演的能力,同时在图像、视频领域也有明显短板。寻找技术的底层逻辑,国产大模型的硬伤也相对显著:

一是现阶段无法成为真正的智能体(Agent)。在小场景、小样本数据的反复交互和迭代过程中,无法唤醒角色扮演和定向交互的能力,也无法在数据迭代过程中建立“相对及时”的正反馈。换言之,通过持续的对话交互,大模型能理解你,但不能及时修正、持续迭代,不能真正成为你;

二是现阶段的多模态能力差距欠缺。根据OpenAI的开发计划,GPT-5已经看完了人类有史以来的全部视频,而视频是物理世界交互最原始、最底层的信号(换言之,Sora能够比Pika、Runway掀起更多的关注,很大程度上也来自于对物理世界的理解有了质的提升)。尽管国产大模型也在积极跟进文生图、文生视频的应用趋势,但囿于底座大模型和中文多模态数据的限制,现阶段的效果明显不尽人意。

因此,基于国产大模型而衍生的图像创作、编辑和设计工具,亦或PPT生成、视频生成和剪辑工具往往在效果和使用体验上相对初级,难以真正规模化。

当然,这种差距也为国内的创业型公司提供“弯道超车”的机会。基于开源的技术框架和扩散Transformer模型,不少创业团队通过本土化的视频数据投喂和训练,积极探索“中国版Sora”的诞生。显然,他们做得似乎比大厂更好——这也更加验证了中美在底层大模型的不同特点。

基于大模型能力的衍生应用:国内有望快速复制跟进

2. 产业链专业细分化:大、中、小模型共振

大模型能力进化的直接结果,是垂直产业链的场景化、专业化、分工化。作为通用大模型,其使命在于通过大规模的模型参数和数据训练,形成具有共性、可复制性的基础能力模块,以提供面向千行百业的底层基础设施。但对于末端用户和企业而言,真正的需求往往是“千人千面”,依场景和行业而高度定制,而这恰是通用大模型公司无法通过标准化的产品交付而实现的。这也直接导致了基础设施和场景之间的断层:谁来链接场景?

AI应用的模型架构:大、中、小模型共振

面向行业和场景的“中模型”应运而生。行业模型是AI应用的“关键载体”,也是大模型走向场景的“使能者”——向下调用和接入通用大模型,以获得通用智能化能力;向上围绕场景和行业数据进行二次训练,构建面向行业的专业知识库,并在垂直行业内进行复制。

对于行业级应用而言,所深植的场景一般有以下特征:

(1)行业有一定的数字化基础,或有一定的数字化转型经验;

(2)行业有大量的底层IT资产和业务数据

(3)行业数据有明显的不可得性(通用大模型难以爬取)和高价值度(变现能力);

(4)模型推理和应用的开放度较高,存在较强的主观能动性要求。


文娱和金融行业是国内外行业模型的高地。国内外的行业模型在从0到1的过程中,往往都遵循以上规律。不难总结,同时符合以上特点的垂直行业并不多(大部分存在较好数据池基础的行业,都有较低的开放度和差错容忍度),主要集中于:游戏、影视、金融(尤其是投研)。这几个行业在AI应用的探索,将以更快的速度形成规模化。

当然,在企业接入行业模型的过程中,仍然会在细分场景(如保险理赔是金融行业当前相对成熟的细分场景之一)有相对定制化的需求,需要结合企业自身的数据和业务流程进行“再定义”,也出现了大批负责场景交付和实施的“小模型”。
“小模型”重交付和实施,本身不掌握核心技术力。对于众多所谓“场景小模型”的公司而言,本质上是底层模型的交付,现阶段并没有自研或直接掌握的核心技术能力。很好类比,AI时代也仍然会有大量的“高级人力外包公司”围绕场景提供模型服务,本身并没有太高门槛;因此,也有大量产业方开始筹建和培养自己的“小模型”团队,以实现对自有数据资产的管理和运营。
 我们眼中的AI应用


基于实现载体的不同,AI大模型的应用可分为端侧智能和场景智能;而根据面向的不同场景,又能够将AI应用拆解为:

(1)流程智能,即面向企业内部的流程管理,针对企业自身及其员工,旨在提升运作和管理效率,具有一定的行业普适性,以充当真正意义上的“生产力工具”;

(2)行业智能:即面向企业开展业务的关键环节,针对企业与外部客户发生的各类链接,旨在基于垂直行业特有的数据和知识库进行封闭训练和强化;

我们眼中的AI应用图谱

1. AI应用限制:本质上来自于“差错容忍度”


AI应用的底层逻辑是:指定的数据集在大模型基础上的反复迭代,是否能够精准贴合客户需求,生成行业可接受的成果。因此,围绕数据本身的特性,我们制作了以下二维图:

AI应用能否规模化:取决于数据的专用性和对结果的精准性要求


(1)第一类:数据专用性低、结果精准性要求低

在对于数据的专用性要求上,依赖于人类能动性和主观创造的领域(如游戏、影视、文娱)往往有较高的开放度,对于采集、反馈、迭代的流程而言,数据的专业性不高,但数据的可得性很高。

反观最终生成的结果,在这些相对开放的场景中可谓是“百花齐放”,其扮演的角色往往是人类个体很难规模化获得的灵感和创意。换言之,对于结果的精准性要求较低,越能够通过快速涌现而补齐个体经历差异导致的灵感缺乏。因此,AI应用走向规模化的第一步,恰恰是人们此前觉得难以被替代的能动性创作领域,以游戏、文娱行业最为典型。

针对上述场景,由于AI生成结果的专业门槛不高,但对于AI应用的工具化水平要求更高。换言之,需求兑现的前提是能够融入灵感获得、设计、创作、编辑的全流程工具,以辅助创作者提升工作效率。

(2)第二类:数据专用性高、结果精准性要求高

针对金融、工业、医疗等具有高度专业门槛的细分行业,数据有较高的专业性;同时,因为行业沉淀的大量数据并不可得,形成了相对封闭的数据生态,且往往伴随这些数据有极高的价值度(变现价值)。另一方面,这些专用行业对于生成结果的精准性相对较高,绝对不可接受“一本正经地胡说八道”,所以进一步提高了大模型应用的门槛。

显然,上述行业的本质特征是:高价值数据封闭而不可得,且生成结果依赖于精密的计算路径。因此,通用大模型在不经过二次训练的条件下,很难直接满足行业客户的需求。

伴随大模型的基础能力提升,行业数据需要在封闭环境内持续采集、反馈、迭代,AI大模型在上述行业规模化应用的想象空间越来越大。AI应用成功的前提,往往离不开对于行业数据强大的掌握能力,也比第一类场景有更高的护城河。
AI应用规模化的顺序:从差错容忍度低的场景开始

目前大模型技术的价值创造开始进入一定范围内的“规模化”:辅助对内容有专业判断力的人,以节省其自己花时间去寻找/撰写相关内容的时间(类似一个Associate,原来一个任务用户自己独立处理需要1小时,现在由Associate花1分钟完成后自己只需要花10分钟检查核对下即可,节省50分钟时间),价值创造主要在生产力效率的提升。

因此,对于大部分企业而言,文秘、插画师、特效师、基础程序员,已经完全可以将AI作为潜在的替代项进行考虑,至少在团队规模上可以有效控制成本,实现降本、增效。

2.  AI应用:规模化的前提是数据采集、反馈、迭代的闭环
Midjorney是AI应用领域少有的相对成功且规模化的案例,其核心壁垒在于:

(1)建立先发优势,以构建一定专用人群的品牌认知;

(2)大量用户使用其平台进行文生图操作,持续反馈、迭代数据,以优化体验闭环
以Midjourney为例:能否根据用户数据反馈和迭代是产品规模化的关键

AI应用在过去1年半最重要的变化来自于大模型的自适应能力,即根据指定用户的反馈,不断自我修正,并在学习和训练小样本数据的过程中,反哺底层大模型,并对结果生成予以优化,最终实现用户体验的提升。

这个从“大样本”到“小样本”的自修正过程,是AI应用产品能否获得用户口碑以复制的重要前提。

3. AI应用:规模化的途径是结合垂直场景形成专业工具
GitHub Copilot作为举世瞩目的自动代码生成产品,自2021年10月上线以来,现已获得了100万付费用户和4万家企业付费客户,贡献年收入超过1亿美元。据程序员用户反馈,Copilot可提升编程效率至少1%,每月创造生产力价值至少为100美元(产品收费:价值创造比例约为1:10)。

以CoPilot为例:标准化产品套件融入代码生产环境

CoPilot取得大范围的成功,不只是基于GPT强大的代码生成能力,更重要的是充分考虑程序员日常编程习惯,融入生产环境。基于“隐藏式”精心设计的UI界面和交互模式,尽可能不影响用户传统的代码生产环境和习惯,通过与日常代码生产流程相融合的“套件”方式,快速实现产品易用性,并在过程中采集用户数据,实现数据飞轮提高壁垒。

同样的道理也适用于Office的AI套件、WPS AI工具以及其他潜在向AI转型的“生产力工具”,其共性在于通过产品化、工具化真正融入用户的生产过程。

如果AI应用仅仅停留在“文生文”、“文生图”、“文生视频”的通用模块,很难在短时间内改变用户的心智和使用习惯,无法真正实现商业规模化。

更好的方向是,结合面向文案创作、短视频创作、影视制作、游戏策划等专业性更高的垂直场景,融入素材获取、加工、二次编辑、成品转化的全流程生产能力,真正转化为“生产力工具”,是AI应用规模化的一条捷径——

我们是否可以期待,在不久的将来,3D MAX、CAD/CAE、PhotoShop……也可以在AI大模型的基础上,蜕变为新质生产力工具,真正解放每一位“天选打工人”。