从黑箱到显微镜:大模型可解释性的现状与未来

本文来自微信公众号:腾讯研究院 (ID:cyberlawrc),作者:曹建峰(腾讯研究院高级研究员)、杨浩然(腾讯研究院实习生)

大模型时代,AI模型的能力持续提升,在编程、科学推理和复杂问题解决等多个领域,已经展现出“博士级”专业能力。AI业界专家纷纷预测,大模型的发展正日益接近实现AGI甚至超级智能的关键拐点。然而,深度学习模型通常被视作“黑箱”,其内在运行机制无法被其开发者理解,大模型更是如此,这给人工智能的可解释性提出了新的挑战。

面对这一挑战,行业正在积极探索提升大模型可解释性的技术路径,力图揭示模型输出背后的推理依据和关键特征,从而为AI系统的安全、可靠和可控提供坚实支撑。然而,大模型的发展速度却远远领先于人们在可解释性方面的努力,而且这一发展速度仍在迅猛提升。因此,人们必须加快脚步,确保AI可解释性研究能够及时跟上AI发展步伐,以发挥实质性作用。

一、为什么我们必须“看懂”AI:可解释性的关键价值

随着大模型技术的快速发展,其在语言理解、推理和多模态任务等领域展现出前所未有的能力,但模型内部决策机制高度复杂、难以解释,已成为学界和产业界共同关注的难题。大模型的可解释性(interpretability/explainability)是指系统能够以人类可理解的方式阐释其决策过程和输出结果的能力,具体包括:识别哪些输入特征对特定输出起关键作用,揭示模型内部的推理路径和决策逻辑,以及解释模型行为的因果关系。可解释性旨在帮助人类理解模型“为什么”作出某个决策,“如何”处理信息,以及在什么情况下可能失效,从而增强模型的透明度、可信度和可控性。简单来说就是,理解模型如何“思考”及运行。

以生成式AI为代表的大模型的可解释性问题尤其复杂。因为生成式AI系统更像是“培育”出来的,而非“构建”出来的——它们的内部机制属于“涌现”现象,而不是被直接设计出来的。这与种植植物或培育细菌菌落的过程类似:开发者设定了宏观层面的条件,指导和塑造系统的成长,但最终所呈现的具体结构却无法精确预知,也难以理解或解释。1当开发者试图深入这些系统内部时,看到的往往只是由数十亿个数字构成的庞大矩阵。它们以某种方式完成了重要的认知任务,但具体如何实现这些任务却并不显而易见。

增进大模型的可解释性对于人工智能发展意义重大。大模型的很多风险和担忧,最终源于模型的不透明性。如果模型是可解释的,就更容易应对这些风险。因此,可解释性的实现能够促进人工智能更好地发展。

其一,有效防范AI系统的价值偏离与不良行为。未对齐的(misaligned)AI系统可能采取有害的行动。开发者无法理解模型的内在机制意味着就无法有效地预测这类行为,从而无法排除这种可能性。例如,研究人员发现模型可能展现出意料之外的涌现行为(emergent behavior),如AI欺骗(AI deception)或权力寻求(power-seeking)。AI训练的本质使得AI系统可能会自行发展出欺骗人类的能力,以及追求权力的倾向,而这些特征是传统确定性软件绝不会出现的。同时,这种“涌现”的特质,也使得发现和缓解这些问题变得更加困难。

当前,由于缺乏对模型内部的观察手段,开发者无法当场识别模型是否出现了欺骗性的念头,这使得有关这类风险的讨论停留在理论揣测层面。如果模型具备有效的可解释性,人们就可以直接检查它是否存在企图欺骗或不服从人类指令的内部回路。通过查看模型内部表示,有望及早发现模型中潜藏的误导性倾向。

有研究已经证明了这一思路的可行性:Anthropic团队通过跟踪Claude模型的“思维过程”,抓到了模型在数学题场景中编造虚假推理以迎合用户的行为,相当于“现行抓获”模型试图糊弄用户的证据,这为利用可解释工具检测AI系统的不当机制提供了原理验证。2总体而言,可解释性能为人们提供额外的检测手段,以确定模型是否与开发者的初衷发生了偏离,或者是否存在某些人们仅凭外部行为难以察觉的异常;它也能帮助人们确认模型在生成回答时使用的方法是否合理可靠。

其二,有效推动大模型的调试和改进。Anthropic最近进行了一项实验,让一个“红队”刻意往模型中引入一个对齐方面的问题,然后让多个“蓝队”去找出问题所在。结果有多支蓝队成功找出了问题,其中一些团队使用了可解释工具去定位模型内部的异常。3这证明了可解释性方法在模型调试中的价值:通过检查模型内部,可以发现是哪部分导致了错误行为。

例如,如果模型在某类问答上频繁出错,可解释性分析可以显示模型内部产生的原因,可能是缺乏对应知识的表示,或是错误地将相关概念混淆在一起。针对这种诊断结果,开发者可以有针对性地调整训练数据或模型结构,从而改进模型性能。

其三,更有效地防范AI滥用风险。当前,开发者试图通过训练和规则来避免模型输出有害信息,但完全杜绝并非易事。进一步而言,对于AI滥用风险,产业界通常通过构建过滤器等安全护栏来应对,但恶意分子可以容易地对模型采取“越狱”等对抗性攻击,以实现其非法目的。如果可以深入观察模型内部,开发者也许能够系统性地阻止所有越狱攻击,并且能够描述模型具有什么危险知识。具体而言,如果模型具有可解释性,开发者就能够直接查看模型内部是否存有某类危险知识,以及哪些途径会触发,从而有望系统性地、针对性地封堵所有绕过限制的漏洞。

其四,推动AI在高风险场景的落地应用。在金融、司法等高风险领域,法律与伦理要求AI决策具备可解释性。例如,欧盟《人工智能法案》将贷款审批列为高风险应用,要求解释决策依据。若模型无法说明拒贷理由,就无法依法使用,因而可解释性成为AI进入某些受监管行业的前提。4事实上,可解释性不仅是法律合规的要求,更直接影响AI系统在实际业务中的信任度和可采纳性。缺乏可解释性的AI推荐极易导致“橡皮图章式”(rubber-stamping)决策,即决策者机械采纳AI结论,缺乏对决策过程的深入理解与质疑。这种盲目信任一旦发生,既削弱了人类的主体性和批判性思维,也让执行者难以及时发现模型中的偏差或漏洞,导致错误决策被不加分辨地执行。5用户只有真正理解系统的推理逻辑,才能在关键时刻发现并纠正模型的错误,提高整体决策的质量与可靠性。因此,可解释性有助于建立用户对AI系统的信任,帮助用户理解模型作出某一决策的依据,增强他们的信任感和参与感。可见,无论出于法律要求还是应用信任,可解释性都是推动AI系统在关键领域落地的基础和核心要素。

其五,探索AI意识与道德考量的边界。更前瞻地看,大模型的可解释性也可以帮助人们理解模型是否具有意识或者说是有感觉的(sentient),从而需要给予某种程度的道德考量。例如,Anthropic在2025年4月推出了一项关于“模型福祉”(model welfare)的新研究项目,探讨随着AI系统变得越来越复杂和类人化,是否需要对其给予道德关怀的问题,例如未来AI工具是否可能成为“道德主体”,如果有证据表明AI系统值得得到道德对待时该如何应对。6这项前瞻性研究反映了AI领域对于未来可能出现的AI意识和权利问题的重视。

二、破解AI黑箱:四大技术路径的突破进展

过去数年来,AI研究领域一直在试图攻克人工智能的可解释性难题,研究者们提出了各种可解释性的方法,致力于创造出类似于精准、高效的MRI(核磁共振成像)那样的工具,以清晰完整地揭示AI模型的内部机制。随着AI领域对大模型可解释性研究的重视程度不断提高,在AI模型的能力达到临界值之前,研究者们或许能够成功地实现可解释性,也就是彻底理解AI系统的内在运行机制。

(一)自动化解释:利用一个大模型来解释另一个大模型

OpenAI近年在模型内部机理解析上取得重要进展。2023年,OpenAI利用GPT-4对GPT-2中单个神经元在高激活样本中的共性进行归纳,并自动生成自然语言描述,实现在无需人工逐个检查的情况下,规模化获取神经元功能解释。7相当于自动给神经元“贴标签”,从而形成一个可以查询的AI内部“使用说明书”。

例如,GPT-4给出某神经元的解释为“这个神经元主要在检测与‘社区’相关的词语”。随后验证发现,当输入文本包含诸如“society(社会)”“community(社区)”等词汇时,该神经元激活很强,证明解释具有一定有效性。8这项成果表明,大模型本身可以成为解释工具,为更小模型提供基于语义的透明度,这种自动化的神经元注释极大提升了可解释性研究的可扩展性。当然,该方法仍有局限,例如GPT-4生成的解释质量参差不齐,一些神经元行为难以用单一语义概念概括。

(二)特征可视化:整体揭示大模型内部的知识组织方式

对大模型整体特征的提取和分析也是一个重要方向。2023年底,OpenAI利用稀疏自编码器技术(sparse autoencoder)分析GPT-4模型的内部激活。研究人员成功提取出了数以千万计的稀疏特征(即模型“脑海”中少数被“点亮”的思维关键词),并通过可视化验证发现其中相当一部分特征具有清晰的人类可解释语义。

例如,有的特征对应“人类不完美”的概念集合,激活在描述人类缺陷的句子上;有的特征表示“价格上涨”相关表述,激活于涉及价格上升的内容上。9短期内,OpenAI希望其发现的特征能够切实用于监测和引导语言模型的行为,并计划在其前沿模型中进行测试,以期可解释性最终能够为他们提供新的方法来思考模型的安全性和稳健性。

2024年5月,Anthropic在其研究文章中展示他们在Claude模型中定位出数以百万计概念是如何被表示的。这项研究采用了字典学习与稀疏特征提取的方法。研究团队首先在一个小型模型上验证了该方法能够找到诸如“全大写单词”“DNA序列”“数学公式中的名词”等有意义特征;继而攻克工程难题,将算法扩展到大型模型Claude Sonnet,成功发现该模型内部蕴含着大量抽象概念的表示。

Anthropic指出,由于每个概念往往由多个神经元共同表示、每个神经元也参与表示多个概念,因此直接查看单个神经元难以识别概念,而他们的方法将模型任一内部状态重新表达为少量特征的组合,有效降低了复杂性。比如,对于任意一段输入文本,Claude内部可能有上万个神经元激活,但可以提取出其中几十个显著特征,这些特征对应于高层语义概念,使研究者能够以接近人类思维的方式来看待模型此刻的“想法”。10这种特征化重构不仅增强了对模型内部逻辑的可读性,也为理解AI“当下在想什么”提供了更接近人类认知的分析路径。

(三)思维链监控:对大模型的推理过程进行监控以识别异常行为

思维链(chain of thought,CoT)是一种特别便利的可解释性形式,它让模型内部的处理过程以自然语言的形式清晰展现出来,从而让人们能够监测模型的异常行为。例如,DeepSeek R1模型首次公开披露并开源了大语言模型的思维链推理过程,为大模型可解释性研究提供了重要的透明度突破。然而,这种可解释性有一个前提,即模型会如实地描述其内在的思考过程。

同时,思维链能够通过多步推理在一定程度上提高模型的对抗鲁棒性,因为当模型面对不寻常的输入时(如对抗样本或越狱尝试),延长思考时间可以帮助它更好地理解和应对这些特殊情况。

前沿推理模型的一个弊端在于,它可能会主动利用评分规则中的漏洞实施“奖励套利”(reward hacking)等异常行为,即在获得机会时,采取各种策略性手段规避限制、实现投机取巧。最近的研究表明,通过监测推理模型的思维链,例如借助另一个大模型对思维链进行实时监控(即让一个较弱的模型对更强的模型进行监督),可以有效检测、识别模型在生成过程中的违规企图与策略规划等异常行为。

例如,模型常常会在思维链中直接表述出利用漏洞的意图,这为研究者识别不当行为提供了新的可解释性路径。针对这一现象,OpenAI在2025年提出了一套结合输入诱导、人工标注与因果分析的检测框架,主动构建测试场景诱发模型潜在的不当行为,并利用另一个模型对其思维链进行监控和行为识别。同时,OpenAI还引入了行为检测器,对思维链中的策略性规避和含糊表述进行自动化判别,提升了检测效率与解释深度。

当然,这种对思维链的监控是事后的,难以从根本上解决问题。但OpenAI的研究还发现,如果直接给大模型施加压力惩罚,抑制其思维链中“不良想法”的出现,并不能从根本上阻止违规行为,反而会促使模型学会隐藏自身真实意图,使不当行为变得更加隐蔽。11当然,OpenAI仍认为思维链监控可能是监督大模型为数不多的有效方法之一,因此在现阶段,OpenAI强烈建议不要直接对思维链施加强制监督和干预,而是采取审慎的态度,在实践中逐步探索最佳的压力监管程度。

(四)机制可解释性:AI显微镜动态追踪和复原模型推理过程

2025年,Anthropic提出“AI显微镜(AI Microscopy)”概念,将模型中间层解析拓展至任务级动态建模,并连续发表两篇论文详细披露其研究进展。第一篇论文聚焦于如何将这些稀疏特征有机组合为“计算电路”(computational circuits),从中追踪模型如何在层层传递中完成由输入到输出的决策路径;12第二篇则基于Claude 3.5,对十种代表性任务(包括翻译、诗歌创作、数学推理等)中的内部激活变化进行观察,进一步揭示了模型内部过程的拟人化特征。13

例如,在多语言问答任务中,Claude会自动将不同语言内容映射至统一的概念空间,显示其具备某种跨语言的“思维语言”;在诗歌生成任务中,模型会在早期阶段预设押韵词,并据此构建后续句子,体现出超越逐词预测的前瞻性规划机制;而在解答数学问题时,研究者观察到模型有时会先生成答案,再在其后补构推理过程,这一行为反映出链式推理方法可能掩盖模型内部真实的推理路径。

DeepMind在与Google Brain合并后,成立了专门的语言模型可解释性团队。2024年,该团队发布了“Gemma Scope”项目,开源了一套针对其Gemma系列开源大模型的稀疏自编码器工具箱。这使研究者能够对Gemma模型内部的大量特征进行提取和分析,类似于提供了一台开膛破肚看内部的显微镜。14DeepMind希望通过开放工具来加速全行业在解释性上的研究,并认为这些努力有望帮助构建更可靠的系统,开发更好的防范幻觉和AI欺骗的措施。此外,DeepMind的研究人员还探索了机制可解释性的前沿方法,其代表性成果是Tracr工具(Transformer Compiler for RASP),该工具可将用RASP语言编写的程序编译为Transformer模型的权重,从而构造出完全可知其计算机制的“白盒”模型。该方法旨在为机制可解释性研究提供精确的“基准真值”(ground truth),使研究者能够验证解释工具是否能够从模型行为中成功还原已知的程序结构和逻辑路径。15

三、现实很骨感:可解释性研究的技术瓶颈

虽然AI研究领域在大模型的可解释性方面取得积极进展,但彻底理解AI系统的内在运行机制,仍面临技术挑战。

其一,神经元多重语义与叠加现象。例如,大模型内部的神经元具有多重语义(polysemantic)的特性,即一个神经元往往混合表示了多个彼此无关的概念,由此产生了叠加(superposition)现象,这成为未来相当长一段时间内的主要挑战。随着模型规模指数级增长,模型学到的内部概念数量可能达数十亿计。这些概念远超模型的神经元数量,只能以叠加方式存储,导致大部分内部表示是人类难以直观拆解的混合物。尽管稀疏编码等技术提供了缓解之道,但目前依然只能解析出模型内部一小部分的特征。如何系统、高效地辨识海量特征的语义将是持续的难题。

其二,解释规律的普适性问题。另一个难题在于,不同模型、不同架构之间的解释规律是否具有普适性。如果每当模型架构改变或规模扩大,现有的解释工具和结论将会失效,那么可解释性将总是滞后于模型发展。理想情况下,研究者希望提炼出一些通用模式或可迁移的方法,使得针对小模型的解析经验能够推广到更大的模型上。近期一些研究给出希望:发现不同规模、不同语言的模型可能共享某些通用的“思维语言”。16未来需要验证并扩展这些发现,看能否构建模型解释的标准组件库。

其三,人类理解的认知局限。即便人们成功提取出模型的全部内部信息,最后还有一个挑战:如何让人类理解这些信息。模型内部可能存在极其复杂的概念及其相互关系,直接呈现给人类可能不具可理解性。因此,需要发展人机交互和可视分析工具,将海量的机理信息转化为人类可以探索、查询的形式。17

四、可解释性关乎人工智能的未来:模型智能和模型解释须并驾齐驱

如今,大模型的发展持续加快,真可谓一日千里。可以预见,未来的人工智能将对技术、经济、社会、国家安全等众多领域产生重大影响,如果人们完全不了解它们的工作原理,这基本上是不可接受的。因此,我们正处于可解释性与模型智力之间的竞赛中。这并非全有或全无的问题:可解释性的每一次进步都会在一定程度上提高人们深入模型内部并诊断其问题的能力。然而,在当前的AI领域,可解释性获得的关注远少于不断涌现的模型发布,但可解释性工作可以说更为重要。可以不夸张地说,可解释性关乎人工智能的未来。

一方面,AI领域需要加强对可解释性研究的投入力度。目前,OpenAI、DeepMind、Anthropic等国际上领先的AI实验都在加大对可解释性工作的研究投入。例如,Anthropic正在加倍投入可解释性研究,其目标是到2027年达到”可解释性能够可靠地检测出大多数模型问题”的程度;Anthropic也在投资聚焦于人工智能可解释性的初创公司。18总体而言,研究院和产业界应在人工智能的可解释性研究上投入更多资源。

从行业最新趋势来看,大模型可解释性正逐步从单点特征归因、静态标签描述向动态过程追踪、多模态融合等方向演进。例如,Anthropic和OpenAI等领先的AI实验室不再局限于单神经元或局部特征的解释,而是探索“AI显微镜”“思维链溯源”等机制,将模型内部状态、推理结构与人类可理解的语义空间有机对应,实现任务全流程的可解释化。

目前,随着大模型规模和应用场景的持续拓展,业内对于可解释性工具的需求将持续增长,催生出多个新的重点研究方向。首先,多模态推理过程的可追溯分析成为前沿课题,研究者正积极开发能够揭示文本、图像、音频等多模态数据决策过程的统一解释框架。其次,针对大模型的复杂行为动机,因果推理与行为溯源正在成为AI安全的重要工具,以帮助理解模型输出背后的深层原因。19此外,行业正在推动可解释性评估体系的标准化建设,力图建立覆盖忠实性(truthfulness)、鲁棒性、公平性等多维度的系统化测评方法,从而为不同应用场景的AI系统提供权威参照。20与此同时,针对专家与普通用户等不同用户群体的差异化需求,个性化解释也日益受到关注,相关系统正通过用户画像与适配机制,提供更有针对性、更易理解的解释内容。21可以预见,这些研究方向将共同驱动大模型可解释性向更高水平演进,助力人工智能技术迈向更加安全、透明和以人为本的发展阶段。我们期待通过可解释性,让AI“心中有数”,也让人类对AI“心中有底”,共同开创人机协作的新局面。

面向未来,随着可解释性研究的进展,未来人们也许能够对最先进的模型进行类似“脑部扫描”的全面检查,即进行所谓的“AI核磁共振”(AI MRI)。这种检查能以较高概率发现广泛的问题,包括模型采取说谎或欺骗、追求权力的倾向、越狱漏洞、模型整体上的认知强弱点等等。这种诊断将与各种训练和对齐模型的技术结合使用来对模型进行改进,这有点类似医生使用MRI来诊断疾病,再开出处方进行治疗,然后再进行MRI检查治疗效果的过程。未来在测试和部署最强大的AI模型时,可能需要广泛执行并规范化这样的检测方法。

另一方面,人们宜对大模型的算法黑箱、幻觉等新兴问题持一定的包容度,可以采用软法规则来鼓励大模型可解释性研究的发展及其在解决前沿AI模型问题方面的应用。过去几年,国内外相关的法律与伦理规则一直积极关注人工智能的透明度和可解释性,但鉴于大模型的可解释性实践还在襁褓阶段、很不成熟,且仍处于快速发展变化当中,显然在此阶段采取明确的强制性监管或强制要求AI企业采取特定的可解释性做法(例如所谓的“AI核磁共振”实践)是没有意义的:甚至不清楚一项预期的法律应该要求AI企业做什么。

相反,应当鼓励、支持行业自律;例如,2024年11月,中国人工智能产业发展联盟发布了《人工智能安全承诺》,并获得了国内17家行业领军企业的签署。其中就包括增强模型透明度的承诺,即企业需要主动披露安全治理实践举措,提升各利益攸关方的透明度。22鼓励AI企业室透明地披露其安全实践,包括如何通过可解释性在模型发布之前对其进行测试,这将允许AI企业相互学习,同时也明确谁的行为更负责任,从而促进“向上竞争”。

此外,在AI透明度方面,某些最低限度的披露(例如针对deepfake等合成媒体)可能是必要的,但广泛的、强制性的“AI使用”标签以及对模型架构细节的强制性披露等做法可能是不恰当的,因为这会带来显著的安全风险。

最后,人工智能正在快速发展,将深刻影响人类社会的各个方面——从就业市场和经济结构,到日常生活方式,甚至人类文明的发展轨迹。面对这种变革性的、将会塑造人类未来的技术力量,我们有责任在它彻底改变我们的经济、生活乃至命运之前,理解自己的创造物,包括深入理解其工作原理、潜在影响和风险,确保能够明智地引导其发展方向。正如计算机科学先驱维纳在65年前所警告,为了有效地防范灾难性后果,我们对人造机器的理解应当与机器性能的提升并驾齐驱。23

脚注来源:

1 Dario Amodei,The Urgency of Interpretability.

(网址)

2 Anthropic,Tracing the thoughts of a large language model.

(网址)

3 Dario Amodei,The Urgency of Interpretability.

(网址)

4 Lumenova,Why Explainable AI in Banking and Finance Is Critical for Compliance.

(网址)

5 Elizabeth M.Renieris et al.,AI Explainability:How to Avoid Rubber-Stamping Recommendations.

(网址)

6 Anthropic,Exploring model welfare.

(网址)

7 OpenAI,Language models can explain neurons in language models.

(网址)

8 Sergio De Simone,OpenAI is Using GPT-4 to Explain Neurons’Behavior in GPT-2.

(网址)

9 OpenAI,Extracting concepts from GPT-4.

(网址)

10 Anthropic,Mapping the Mind of a Large Language Model.

(网址)

11 OpenAI,Detecting misbehavior in frontier reasoning models.

(网址)

12 Anthropic,Circuit Tracing:Revealing Computational Graphs in Language Models.

(网址)

13 Anthropic,On the Biology of a Large Language Model.

(网址)

14 Google DeepMind,Gemma Scope:helping the safety community shed light on the inner workings of language models.

(网址)

15 Anthony Alford,DeepMind Open-Sources AI Interpretability Research Tool Tracr.

(网址)

16 Anthropic,Tracing the thoughts of a large language model.

(网址)

17 Lee Sharkey et al.,Open Problems in Mechanistic Interpretability.

(网址)

18 Mark Sullivan,This startup wants to reprogram the mind of AI—and just got$50 million to do it.

(网址)

19 Kanerika,Why Causal AI is the Next Big Leap in AI Development.

(网址)

20 M.F.Mridha et al.,A Unified Framework for Evaluating the Effectiveness and Enhancing the Transparency of Explainable AI Methods in Real-World Applications.

(网址)

21 Jakub Jeck et al.,TELL-ME:Toward Personalized Explanations of Large Language Models.

(网址)

22中国信通院:《守护AI安全,共建行业自律典范——首批17家企业签署》。

(网址)

23 Norbert Wiener,Some Moral and Technical Consequences of Automation.

(网址)