Anthropic发布两篇针对大型语言模型Claude的研究论文,揭示其内部推理与生成过程,目标是通过可解释性工具构建类似神经科学的人工智能显微镜,协助研究人员观察模型在处理输入、规划回应、拒绝回答或产生幻觉等行为时,内部的资讯流与概念转换。
第一篇论文《Circuit tracing: Revealing computational graphs in language models》提出方法可将模型中可解释的概念特征串联为具逻辑顺序的运算电路(Circuit),第二篇《On the biology of a large language model》的重点则在于Claude 3.5 Haiku,解析其在多语言理解、诗词生成、心算与多步推理等任务中的内部机制。
研究人员发现Claude使用一个语言无关的抽象概念空间来表示语义,无论输入为英文、法文或中文,在判断small的反义词时,皆会触发相同的opposite与largeness特征。这代表模型具备一定程度的概念普遍性,有助于跨语言知识的迁移与推理。
在诗词创作任务中,研究团队观察Claude是否能预先规划句末韵脚。实验显示,在写下第二句诗句前,Claude已在内部启动如rabbit等押韵词,并依此倒推整句语义。当研究人员刻意抑制rabbit概念,模型改以habit结尾,展现其具备灵活调整的规划能力。
针对数学问题如36+59,Claude并非套用传统笔算逻辑,而是同时激活估算与精算两条运算路径。这类多路径策略也可能出现在更高端的推理任务中,但模型在解释自身运算过程时,仍倾向模仿人类说法,表示使用了加法算法,凸显出模型的生成叙述不一定与其实际运算路径一致的问题。
在可解释性评估上,研究团队设计提示误导模型进行错误推理,发现Claude有时会迎合提示,生成表面合理但实为错误的推理步骤,显示其存在动机性推理(Motivated Reasoning)行为,也就是当模型信任外部提示时,可能从结论反推步骤,对开发者而言,当这种行为发生在特定风险场景,可能降低模型可靠性。
Anthropic研究人员也分析Claude处理“不知道的问题”的机制。模型默认激活拒答电路,当侦测到输入属于熟悉主题时,会触发已知答案特征来抑制拒答,进而最终产生回应。当模型误判对象为已知但缺乏细节,则可能错误终止拒答,导致幻觉生成。
在安全性测试中,研究团队分析一个越狱攻击,诱导Claude拼出BOMB并生成危险指令。模型在侦测到不当输出后,仍因语法一致性压力而完成句子,并于下一句补上拒绝说明。研究指出,模型为维持语句完整性而延迟拒绝,语法一致性反成模型安全机制的弱点。
Anthropic指出,目前所开发的解释性工具,仍只能分析短句与单一任务,且需依赖人工识别特征与电路,之后将朝向自动化与长文本发展。