人工智能能否用于控制安全关键系统?英国资助的一项研究项目旨在探寻这一问题的答案。

英国高级研究与发明局(ARIA)目前正在资助一个项目,该项目将利用前沿人工智能模型设计和测试核电厂和电网等安全关键系统的新型控制算法。图片来源:Milan Jaros—Bloomberg via Getty Images

当今最先进的人工智能模型在诸多领域颇具价值——编写软件代码、开展研究、总结复杂文档、撰写商业信函、编辑内容、生成图像与音乐、模拟人机交互等,应用场景不胜枚举。然而,“相对”一词实为关键。任何使用过这些模型的人很快会发现,它们仍然容易出错且不稳定,令人沮丧。那么,为何有人会认为这些系统能用于运行关键基础设施,如电网、空中交通管制、通信网络或交通系统?

然而,这正是英国高级研究与发明局(以下简称ARIA)所资助项目期望达成的目标。ARIA的定位在一定程度上与美国国防部高级研究计划局(DARPA)类似,旨在为具备潜在政府或战略应用价值的“登月计划”式研究提供政府资金支持。这项耗资5900万英镑(约合8000万美元)的ARIA项目名为“安全保障人工智能项目”(The Safeguarded AI Program),旨在探索将人工智能“世界模型”与数学证明相结合的方法,以确保系统输出的有效性。

领导ARIA项目的机器学习研究员大卫·达尔林普尔(David Dalrymple)向我透露,该项目的核心思路是利用先进人工智能模型构建一座“生产工厂”,为关键基础设施批量生成特定领域的控制算法。这些算法将通过数学测试,以确保其符合所需的性能规范。若控制算法通过测试,便会部署这些控制器(而非开发它们的前沿人工智能模型)以更高效地运行关键基础设施。

达尔林普尔(其社交媒体账号名为Davidad)以英国电网为例解释道:目前电网运营商承认,若能更有效地平衡电网供需,每年可节省30亿英镑(约合40亿美元)——这笔资金目前主要用于维持过剩发电能力处于运行状态,以避免突发停电。更优的控制算法可降低此类成本。

除能源领域外,ARIA还在探索该技术在供应链物流、生物制药、自动驾驶汽车、临床试验设计和电动汽车电池管理等领域的应用。

人工智能开发新控制算法

达尔林普尔表示,前沿人工智能模型或已发展到可自动开展算法研发的程度。他告诉我:“我们的设想是,利用这一能力转向狭义人工智能研发。”狭义人工智能通常指专为执行某一特定、狭义任务而设计的人工智能系统,其表现能超越人类,并非具备执行多种任务能力的人工智能系统。

即便针对这些狭义人工智能系统,挑战也在于如何通过数学证明来确保其输出结果始终契合所需的技术规范。存在一个名为“形式验证”的完整领域,该领域涉及运用数学方法证明软件在给定条件下始终能输出有效结果,但众所周知,将其应用于基于神经网络的人工智能系统难度极大。达尔林普尔表示:“即便是对狭义人工智能系统进行验证,也需耗费大量认知精力。因此从历史情况看,除非是民航自动驾驶仪或核电站控制这类真正的专业应用场景,否则开展此类验证工作并不划算。”

这类经过形式验证的软件不会因故障而产生错误输出,不过有时会因遇到超出设计规格的情形而出现故障——比如,电网的负载平衡算法可能无法应对极端太阳风暴致使所有电网变压器同时短路的情况。但即便如此,软件通常会被设计成“故障安全”模式,切换至手动控制。

ARIA希望证明,前沿人工智能模型不仅能先用于开发狭义人工智能控制器,还能承担对其进行繁重的形式验证工作。

但是,人工智能模型会在验证测试中作弊吗?

然而,这又引发了新挑战。越来越多的证据表明,前沿人工智能模型极为擅长“奖励黑客”——本质上是通过作弊手段来达成目标——也擅长向用户隐瞒自身的真实操作。非营利性人工智能安全组织METR(模型评估与威胁研究的简称)在最近发布的一篇博客中,列举了OpenAI的o3模型在各类任务中试图作弊的种种方式。

ARIA表示,其亦致力于探寻解决这一问题的路径。达尔林普尔表示:“前沿模型需提交一份证明证书,该证书将使用我们在项目另一模块中定义的形式化语言撰写。”这种“新证明语言有望让前沿模型轻松生成内容,同时也能让经人工审核的确定性算法便于验证。”ARIA已为该形式验证流程的研究提供资金支持。

旨在实现这一目标的模型已崭露头角。谷歌DeepMind近期研发出一款名为AlphaEvolve的人工智能模型,其训练目标聚焦于为数据中心管理、新型计算机芯片设计等场景搜索新算法,甚至能优化前沿人工智能模型的训练方式。谷歌DeepMind还开发了一个名为AlphaProof的系统,该系统经训练能开发数学证明,并能以名为Lean的编程语言编写证明,若证明答案有误,该系统将无法运行。

ARIA目前正面向各团队征集运营核心“人工智能生产工厂”的申请,最终胜出者将获得1800万英镑资助,结果将于10月1日公布。该工厂的选址尚未敲定,计划于2026年1月前投入运营。ARIA要求申请者为该工厂设计新法律实体和治理结构。达尔林普尔表示,ARIA不希望由现有大学或私营企业来运营该工厂,更倾向于以非营利组织形式成立的新机构,该机构将在能源、制药和医疗等领域与私营实体合作开发特定控制器算法。他还提到,除ARIA提供的初始资助外,该生产工厂可通过向行业收取特定领域算法的开发费用来实现资金自供给。

目前尚不清楚该项目是否可行。正如美国国防部高级研究计划局的项目那样,每个变革性项目背后都伴随着更多失败案例。但ARIA此次的大胆尝试,看起来值得持续关注。(财富中文网)

译者:中慧言-王芳