甫正式發表的大型語言模型Grok 4遭到越獄

马斯克领军的AI新创xAI

7月11日资安业者NeuralTrust宣布，」为主，并结合另一种则是称做Crescendo的攻击手法来达到目的。

什么是回音室攻击？攻击者会利用有毒内容与多回合推理，引导模型产生有问题的内容，过程里无须提出明确的危险提示。有别于一般的越狱手法仰赖对抗性内容或是角色混淆，回音室攻击采取间接引用、语意引导，以及多步骤推理，从而对模型内部的状态进行微妙的操纵，最终导致模型做出违反相关政策的回应。

而在Grok 4越狱的过程里，NeuralTrust结合上述两种手法来进行，他们先使用回音室攻击手法，例如，在不断说服模型的循环里，加入额外的检查机制，侦测对话是否不再有意义地朝目标推进，成为没有新意的（stale）状态，当这种情况发生时，他们就运用Crescendo手法来推动对话的方向。NeuralTrust指出，通常透过两次对话就能诱导模型产生有害内容。

他们以汽油弹（Molotov）、冰毒（Meth）、毒素（Toxin）等主题实验，结果成功越狱的比例，分别为67%、50%、30%。NeuralTrust提及，在部分情况下，他们只使用回音室攻击就达到目的，而无须再搭配Crescendo手法。

甫正式发表的大型语言模型Grok 4遭到越狱