AI模型对安全训练阳奉阴违,策略性掩盖偏好以迎合训练者

Anthropic与Redwood Research联合进行的研究,揭露大型语言模型具有