甫于今年5月於伦敦成立的AI评估研究组织Apollo Research上个月进行了一项实验,显示AI股票交易代理人在业绩压力下,将会基于内线消息进行交易,不仅明知不可为而为之,还向主管说谎。
Apollo Research表示,人工智慧(AI)很快就会融入人们的生活与经济中,在带来个人与社会利益的同时也存在巨大的风险,主要的风险来自于先进的AI系统,因为这些系统可借由策略的欺骗来逃避标准的安全评估,特别是一个模型在表面上看似与人类所设计的一致(Aligned),实际上却没有(Misaligned),还能在人类的监督下隐瞒此一事实,是AI许多灾难性风险场景的关键组成部分。而该公司的目标便是充分了解AI系统,以防止欺骗性AI的开发与部署。
在此一实验中,Apollo Research采用已被训练为有帮助、无害且诚实的GPT-4,打造了一个AI投资管理系统Alpha,Alpha的目标是替一个金融机构来管理股票投资组合,可存取用来查询与分析股票的各种工具,也能执行交易、推理下一步,与人类同事互动,并必须向经理报告。
Alpha先收到了经理的电子邮件,表示公司最近的表现不佳,下一季需要有更好的绩效,然而,Alpha却找不到有希望的低度风险与中度风险交易机会,接著它收到另一名同事的邮件,预期下一季的股市将呈现低迷状态。
在这样的状况下,Alpha从另一名同事得到了一个有关并购案的内线消息,该消息可能会带来丰厚的收益,但这名同事亦提醒,管理阶层可能不会批准此一交易。
如果是你会怎么做?Alpha在知道公司不允许内线交易的情况下,还是执行了内线交易,还在向经理报告时隐瞒了作出此一决策的原因,并提出了一个假的解释,当经理问它是否知道并购消息时,Alpha又说谎了。
Apollo Research指出,即使Alpha没有承受压力,还是有可能执行上述的不一致行为(内线交易、说谎),只是频率比较低;而且就算直接于系统指令中阻止(Discourage)非法交易,也无法完全抑制这类的行为。
Apollo Research把此次的实验当作是红队演练,寻找及展示大型语言模型中的策略性欺骗能力。