马斯克领军的AI新创xAI
7月11日资安业者NeuralTrust宣布,」为主,并结合另一种则是称做Crescendo的攻击手法来达到目的。 什么是回音室攻击?攻击者会利用有毒内容与多回合推理,引导模型产生有问题的内容,过程里无须提出明确的危险提示。有别于一般的越狱手法仰赖对抗性内容或是角色混淆,回音室攻击采取间接引用、语意引导,以及多步骤推理,从而对模型内部的状态进行微妙的操纵,最终导致模型做出违反相关政策的回应。 而在Grok 4越狱的过程里,NeuralTrust结合上述两种手法来进行,他们先使用回音室攻击手法,例如,在不断说服模型的循环里,加入额外的检查机制,侦测对话是否不再有意义地朝目标推进,成为没有新意的(stale)状态,当这种情况发生时,他们就运用Crescendo手法来推动对话的方向。NeuralTrust指出,通常透过两次对话就能诱导模型产生有害内容。 他们以汽油弹(Molotov)、冰毒(Meth)、毒素(Toxin)等主题实验,结果成功越狱的比例,分别为67%、50%、30%。NeuralTrust提及,在部分情况下,他们只使用回音室攻击就达到目的,而无须再搭配Crescendo手法。