企业内部的许多信息都是以行和列呈现的所谓的“表格数据”。例如报告中的电子数据表、数据库条目与大量图表等。
事实证明,由于多个原因,人工智能模型很难处理表格数据。表格中有时是文本,有时是数字,而且数字还有不同的计量单位,可以说是令人困惑的大杂烩。此外,表格中不同单元格之间的关系有时候并不明确。要了解各单元格之间的相互影响,需要具备专业知识。
多年来,机器学习研究人员一直在努力解决表格数据的分析问题。现在,一组研究人员声称他们找到了一个优雅的解决方案:一个大型基础模型。这个模型类似于支持OpenAI的ChatGPT等产品的大语言模型,但专门使用表格数据进行训练。这个预训练模型可以应用于任何表格数据集,只需几个示例,就能准确推断各单元格数据之间的关系,并且比以往任何机器学习方法都能更好地预测缺失数据。
弗兰克·哈特和诺亚·霍尔曼是两位来自德国的计算机科学家,他们帮助开创了这种技术,并最近在著名的科学期刊《自然》(Nature)上发表了一篇论文。他们选择与有金融从业经验的苏拉吉·甘比尔合作,创办了一家名为Prior Labs的初创公司,致力于将该技术商业化。
近期,总部位于德国弗莱堡的Prior Labs宣布已获得900万欧元(930万美元)种子前融资。这轮融资由总部位于伦敦的风险投资公司Balderton Capital领投,参投方包括XTX Ventures、SAP创始人汉斯·沃纳-赫克托的赫克托基金(Hector Foundation)、Atlantic Labs和Galion.exe。Hugging Face联合创始人兼首席科学家托马斯·沃尔夫、Snyk和Tessl的创始人盖伊·伯德扎尼,以及著名的DeepMind研究员艾德·格里芬斯泰特等知名天使投资人也参与了此次融资。
Balderton Capital合伙人詹姆斯·怀斯在解释为什么决定投资Prior Labs的一份声明中表示:“表格数据是科学和商业的支柱,但颠覆了文本、图像和视频领域的AI革命对表格数据的影响微乎其微——直到现在。”
Prior Labs在《自然》杂志上发表的研究报告中使用的模型被称为Tabular Prior-Fitted Network(简称 TabPFN)。但 TabPFN的训练仅使用了表格中的数值数据,而不是文本数据。Prior Labs公司的AI研究员弗兰克·哈特曾任职于弗莱堡大学(University of Freiburg)和图宾根埃利斯研究所(Ellis Institute Tubingen)。他表示,Prior Labs希望将这个模型变成多模态,使它既能理解数字,也能理解文本。然后该模型将能够理解列标题并进行推理,用户也可以像使用基于大语言模型的聊天机器人一样,用自然语言提示与AI系统互动。
目前的大语言模型,即使是如OpenAI 的o3等更先进的推理模型,虽然可以回答一些关于表格内容的问题,但它们无法根据对表格数据的分析做出准确预测。哈特表示:“大语言模型在这方面表现得非常糟糕。它们在这方面的效果远不及预期,且分析速度缓慢。”结果,大多数需要分析这类数据的人都使用了旧的统计方法,这些方法速度快,但并不总是最准确的。
但Prior Labs的TabPFN能够做出精准预测,包括处理所谓的”时间序列”数据——这类预测基于复杂模式,利用历史数据推断下一个最可能的数据点。根据Prior Labs团队1月发布在非同行评审研究平台arxiv.org上的新论文显示,TabPFN在时间序列预测方面的表现优于现有模型:较同类最佳小型AI模型预测准确率提升7.7%,甚至超越比其大65倍的模型3%。
时间序列预测在各行各业应用广泛,尤其是医疗和金融等领域。哈特透露:“对冲基金对我们青睐有加。”(事实上,一家对冲基金已成为其首批客户(因保密协议无法透露名称),另一家正在概念验证阶段的客户是软件巨头SAP。)
Prior Labs以开源形式发布TabPFN模型,唯一许可要求是使用者必须公开声明模型来源。哈特称,该模型下载量已达约百万次。与多数开源AI公司类似,Prior Labs计划的盈利模式聚焦于针对客户的用例定制模型,并为特定市场开发工具和应用。
Prior Labs并不是唯一致力于突破AI在表格数据方面限制的公司。由麻省理工学院(MIT)数据科学家德瓦弗拉特·沙阿创立的Ikigai Labs和法国初创公司Neuralk AI等正尝试将深度学习(包括生成式AI)应用于表格数据,谷歌(Google)和微软(Microsoft)的研究团队也在攻克这一难题。谷歌云的表格数据解决方案部分基于AutoML技术(该技术使用机器学习,将创建有效AI模型所需的步骤自动化,哈特曾是该领域的先驱)。
哈特表示,Prior将持续升级模型:重点开发关系型数据库支持、增强时间序列分析能力,构建“因果发现”功能(识别表格数据间的因果关系),并推出可通过聊天界面回答表格问题的交互功能。他表示:“我们将在第一年实现这些目标。”(财富中文网)
译者:刘进龙
审校:汪皓