EN
【原创研究】AI+金融:数据为桨,智立潮头
来源: 合伙人 陈天伦日期:2024-04-22浏览量:1003

导引:AI通用大模型覆盖的公开数据只是“冰山一角”,而在海面下暗潮涌动的是大量专用领域的私有数据,这也意味着通用大模型无法解决“暗知识”相关的问题。进而,私有数据的沉淀、调用和训练,将是AI在专业领域应用落地的关键门槛。显然,金融是专用数据领域的典型,也是AI大模型真正走向商业落地的“兵家必争之地”。银行、券商、保险、基金等传统金融业态和业务模式,正在为金融大模型所快速改造和赋能……

金融:通用大模型的死角

金融赛道,为什么是通用大模型的死角?
通用大模型,无法将触角伸向“最后一公里”。AI大模型从根本上改变了垂直场景应用演进的方式——从高度定制化的“垂直场景+规则+小样本数据”模式,到“基座大模型+垂直场景模型+小样本数据”,AI大模型是垂类应用的点睛之笔。尽管如此,垂直场景应用仍然无法摆脱“专用数据”的二次训练,原因在于:
通用大模型无法覆盖占整体数据超过70%的专用数据和私有数据;这也意味着,通用大模型无法解决超过70%的垂类应用问题。
在探讨金融大模型的潜力之前,我们首先需要理解金融行业的几个核心特征:私有数据的不易得性、高价值性,以及相对领先的数字化基础。
自ChatGPT面世之前,金融行业在相当长的时间内占据大数据和AI商业应用的高地,显然离不开其大量、独特的数据积淀。金融行业的本质使命是解决信息不对称,而立身之本是覆盖资金、资产、客户和交易的全链条数据。金融行业积累了大量的专用数据,这些数据不仅难以通过公开途径获取,而且具有极高的商业价值。它们包括但不限于行业数据、产业链数据、交易数据、市场数据、客户数据、金融产品数据……
同时,金融行业在数字化转型方面一直处于领先地位,这为大模型开花结果提供了土壤。金融机构在数据收集、处理和分析方面拥有成熟的技术和流程,这些都是训练和部署大模型不可或缺的条件。
行业模型是私有数据的产物。金融行业天然适合“行业级模型”,也天然适合大模型的二次“锤炼”。尤其是在目标细分场景明确的条件下,语料更定向、数据更精确、样本更有效,通过有监督学习的二次训练和微调,金融行业模型应运而生。
 我们眼中的AI+金融

行业大模型时代到来,生成式AI推动金融科技进入下半场。生成式AI突破之前,金融科技早已不是新鲜事物;在过去十年,中国的金融机构是事实上接受新技术速度最快、落地AI和大数据系统最具规模的一批用户。尤其在移动互联网时代,大数据技术已在金融机构的全链条施加重要影响,从客户画像、信贷风控,再到数字营销——这种重塑显然是以“流量”为中心的。
换言之,在不减少人工成本的前提下,大数据技术为金融机构精准识别风险、加大客户导流,兑现了“流量价值”;但这种“流量价值”在金融机构并未真正实现大规模“机器换人”的背景下,难以成为真正的生产力工具。尤其在移动互联网时代末期,金融机构的“流量价值”显著下降。
金融科技的下半场,不再以“流量”为导向,而是以“机器换人”为导向,重视私有数据的价值变现,通过数量级降低成本或提升效率,实质性参与金融机构决策,追求盈利而非追求流量。
行业个性开始收敛,金融大模型将成为行业基座。金融行业模型“承上启下”,既通过接入通用大模型而具有理解、学习和交互能力,又通过在不同垂直场景的私有数据训练,获得通用大模型无法触达的专用知识,是大模型链接金融机构的核心桥梁。
对内:AI Agent规模化替代机械劳动,真正实现“机器替人”。金融行业存在较强的产业固有规则,在客户审核、财务报表及制单处理、合规监控、反洗钱/反欺诈监控等领域,金融大模型已完全可以做到针对指定流程的优化与替代。不同于传统的RPA,金融大模型叠加了强大的理解、学习和交互能力,真正跳出简单“执行”的框架,扮演“数字员工”的角色。
对外:专有数据真正上升为专有知识,成为生产力工具。针对金融机构的核心业务场景,以及和客户交互的关键环节,金融大模型正在发生“蜕变”。上一个时代的Fin-tech追求“信息收集和有效检索”,而金融大模型赋予“数据理解、分析和学习”的能力。这意味着,金融大模型赋予了在从前技术框架下“不可能做到”的工种:如智能投研。
中国最早在2016年前后就出现“智能投研工具”:但传统的NLP和CV技术框架下无法真正理解财务和行业数据,更无法基于海量数据为分析师或基金经理提供实时的信息推理、估值演算和决策辅助——这导致鲜有成功的商业化应用。曾被标普500以5.5亿美金收购,如今泯然众人的智能投研企业Kensho,成为上一个时代的“祭品”。

而在金融大模型加持下,智能投研工具的商业化落地成为可能,这在传统金融科技框架内无疑是天方夜谭。金融数据信噪比不高,和工业界的数据相比是数量级的差距。再考虑到金融数据的时序性与时效性,无论是机器还是人都难以找到可持续的模式。AI可以根据风险逻辑去拿Beta(与市场相关的可预测收益),但一直很难拿到Alpha(与市场不相关的超额收益)——而在金融大模型的加持下,叠加“理解、学习和交互能力”,使得智能投研真正成为生产力工具成为可能。 

实际上,大模型为金融行业带来的并不止是单独业务能力的跃升,而是大模型的“large”所提供的泛化能力。金融机构在过去智能化进程中,早已在风控、投研、投顾、评级等业务线构建模型与中台,辅助从业者推进业务的同时也在不断积累文本数据。而大模型的出现提供了一个将打乱的中台整合为一体的契机,既不需要多次建模也能打破各中台之间的数据孤岛。

最终呈现是以金融大模型为底座从而整合并不断延展机构的能力,好比阿里曾经在组织变革中提出的“大中台,小前台”。于金融机构而言,这不仅是效率的提升,更是效益的跃升。
 金融大模型,谁主沉浮?

2023年3月,全球头部金融“数商”彭博社发布了专门为金融领域打造的大模型Bloomberg GPT,试图将其积累40年的财经资讯数据价值得到释放。彼时的彭博社可能没有想到,金融在大洋彼岸已经成为垂直领域大模型的抢跑者。

尽管早在彭博社开始着手搭建训练BloombergGPT前,已有不少研究表明使用特定领域数据训练的垂直大模型能在特定领域效果拔群,但当行业大模型的风吹到我们这时,有吸引力让垂直领域公司投身大模型,而非等待整体解决方案的似乎只有金融一家。

国内AI+金融如火如荼,陷入“混战”。我们将玩家的主要类别分为几类:一是传统的HyperScale 互联网大厂,往往在基座大模型的基础上,围绕单一场景和自身业务优势,形成垂直模型;二是金融数据终端玩家,致力于以金融大模型赋能股基APP或是金融终端,基于垂直场景的私有数据闭环,为已有模块注入AI能力,实现多场景应用;三是创业公司或AI新锐,往往通过和传统金融机构或数据厂商合作,研发独立的行业模型。

金融大模型在过去1年内完成了从0到1的“舞台搭建”。在2024年起,真正掌握非流通的私有数据的金融“数商”们开始发力——以恒生聚源、东方财富(Choice)、WIND、财联社为代表,基于长期滚动收集和贮存的底层数据,开启行业模型的新篇章。
如何评价金融大模型的价值和潜在规模化能力?
标准一:能否将“数据飞轮”转起来是规模化的核心逻辑
换言之,金融大模型最核心的底层价值是私有数据的闭环能力。在金融行业,数据是核心资产,而AI的效能在很大程度上取决于数据的质量和处理能力。所谓的“专用数据飞轮”指的是一种自我强化的循环,其中高质量的数据输入可以产生更准确的模型预测,这些预测又反过来提升数据的质量和相关性。
谁有能力获得更多不易得的高质量私有数据,谁就有“近水楼台先得月”的优势。显然金融“数商”和传统金融机构自身有明显的竞争优势。
标准二:面向垂直场景的数据隐私和安全
区别于其他领域,金融行业涉及大量敏感的客户数据、交易数据,且绝大部分数据有较高的商业价值,因此数据隐私和安全至关重要。数据隐私和安全,将在相当长的时间内,成为金融大模型真正落地的“痛点”。AI+金融的参与者必须强化数据保护,考虑采用隐私计算等先进的加密技术和安全协议。
为满足客户的安全需求,越来越多的大模型厂商在考虑“软硬件一体”的加密方式(如大模型MaaS一体机),或根据客户需求进行纯粹的私有化部署(对于算力提出更高的瓶颈和要求)。
标准三:从“泛金融”到“细分场景”
金融大模型的应用,“不患寡而患不实”。尤其区别于上一个时代的金融科技,AI+金融应以真正可量化的价值创造为导向,进入更加细分的场景和业务流程,以寻找具有规模化潜力的杀手级应用。自23年下半年至今,金融大模型应用领域最广泛的三个细分场景,依次是:核保理赔、合规监管、智能投顾。
核保理赔是非常典型的场景。细分场景应用走向规模化的条件是:相对固定的动作流程、较好的行业可复制性、高度封闭的客户出险私有数据。因此,越是细分场景的应用,越要足够封闭的私有数据、足够好的可复制性。
2024年,将是金融垂类大模型的井喷之年。伴随恒生聚源、WIND等第三方数商入局,金融大模型将迎来前所未有的“百花齐放”。野蛮生长的行业环境之下,具备较大私有数据基础、较好应用场景入口、较强AI基因和技术响应能力的玩家,更有可能拔得头筹。
AI+金融,究竟谁主沉浮?数据为桨,安全为帆,智立潮头。