Anthropic公开运算电路追踪工具 推进语言模型可解释性研究

Anthropic正式开放其新一代运算电路追踪(Circuit Tracing)工具,供研究人员剖析大型语言模型的内部运作逻辑。该工具支援主流开放权重模型,搭配Neuronpedia平台的互动前端,让使用者能生成、视觉化及分享语言模型在生成特定输出时的归因图(Attribution Graphs),推进模型的可解释性研究。

语言模型推理过程复杂,而使用者对语言模型思考过程与决策路径透明化的需求渐增,Anthropic认为,现阶段对语言模型内部运作的理解,远落后于语言模型效能的进展,相关研究多数停留于封闭测试或少数大型机构内部。

而本次Anthropic释出的电路追踪工具,主要功能在于自动化产生模型输出过程的归因图。研究人员可透过函式库,针对支援的开放权重语言模型如Gemma、Llama进行电路追踪分析,系统于背景中记录并呈现模型内部节点、权重及特征值的互动路径,部分还原模型推论步骤。

这些图像化结果有助于研究人员理解模型在语意推理、逻辑运算或多语言转换等任务时,实际动用的参数与运算流程,进一步发现模型潜在结构、关键路径或异常行为。

除函式库本身,Anthropic与Decode Research团队合作推出Neuronpedia前端平台,使用者可在网页介面直接操作、浏览归因图,并进行注解或分享。平台也提供范例笔记本,呈现Gemma-2-2b和Llama-3.2-1b等模型,在处理多步骤推理及不同语言资料时的运作方式,鼓励使用者尝试各种提示语,比较不同模型行为,扩展语言模型内部结构的分析广度。

归因图以图论方法表示语言模型内部运算流程,结合资料视觉化技术,揭示模型处理输入讯息时,逐步选择特定参数与特征以产生输出。研究人员可进一步修改特定节点或特征值,观察模型行为变化,验证各种推论假说,有利于研究语言模型安全、偏差检测与新模型架构设计。

Anthropic表示,此次释出内容涵盖工具函式库、前端平台、范例资料集及分析脚本,并欢迎社群贡献新案例与功能改良。研究团队也将未经分析的归因图上传至平台,作为后续讨论与创新实验的素材。Anthropic执行长Dario Amodei指出,语言模型可解释性已成为产业共同课题,开放研究工具、促进社群参与将有助于加快理解语言模型行为逻辑。