本文来自微信公众号:学术头条,作者:学术头条,题图来自:AI生成
人工智能(AI),如果可以像人类一样“思考”,或许能够帮助我们理解人类的思维方式,尤其是不同心理状态(如抑郁或焦虑)的人群如何做出决策,进而为人类健康研究提供一个新视角。
如今,一篇发表在权威科学期刊 Nature 上的研究论文,为实现上述这一假设带来了可能。
论文链接:(网址)
来自德国慕尼黑亥姆霍兹中心(Helmholtz Munich)的研究团队认为,他们构建的人类认知基础模型 Centaur,不仅可以预测人们在赌博、记忆游戏和问题解决等各种情况下将要做出的决策,其表现甚至还优于心理学中用于描述人类选择的经典理论。
在他们看来,Centaur 为深入理解人类认知机制及完善心理理论开辟了新的研究路径,潜在应用范围涵盖从分析经典心理实验到模拟临床环境中的个体决策过程,如抑郁症或焦虑症。
“你基本上可以在计算机模拟环境中进行实验,而非在实际人类参与者身上进行实验,” 论文第一作者、通讯作者、慕尼黑亥姆霍兹中心认知科学家、博士后 Marcel Binz 表示。这在传统研究进展过慢或在难以招募儿童或精神疾病患者的情况下可能有所帮助。
“在认知科学领域构建理论非常困难,”挪威特隆赫姆科技大学心理语言学家 Giosuè Baggio 表示,“借助机器的帮助,看看我们能够提出哪些新想法,着实令人兴奋。”
这一结果表明,基于数据驱动的认知领域通用模型发现是一项有前景的研究方向,下一步研究应是将这一领域通用计算模型转化为人类认知的统一理论。
人类认知AI:基于1000万人类决策“再训练”
数十年来,心理学领域一直致力于解释人类思维的全部复杂性。然而,传统模型无法同时做到既可以清晰地解释人们如何思考,又能够可靠地预测他们的行为。
而 Centaur 在这一领域实现了突破,将两个此前相互独立的领域——可解释理论与预测能力——结合起来,从而能够识别常见的决策策略,并灵活适应不断变化的场景——甚至以令人惊讶的精度预测反应时间。
“我们创建了一个工具,其能够预测(和模拟)任何用自然语言描述的情境中的人类行为——就像一个虚拟实验室,” Binz 表示。
据介绍,Centaur 是在一个名为“Psych-101”的数据集上使用 LoRA 方法对 Llama 进行微调而构建。该数据集包含超过 1000 万个由 60000 多名参与者在 160 个心理实验中做出的独立决策,从冒险行为、奖励学习,到道德困境,这些实验涵盖了人类行为的广泛领域。未来,研究团队将进一步扩展这一数据集,加入人口统计和心理特征等。
图|Psych-101 和 Centaur 概述。a)Psych-101 包括 160 项心理实验的逐次试验数据,共有 60092 名参与者,共做出 10681650 次选择,涉及 253597411 个文本 token,涉及多臂老虎机、决策、记忆、监督学习、马尔可夫决策过程等领域;b)Centaur 是一个人类认知基础模型,在 Psych-101 数据集上使用 LoRA 方法对 Llama 进行了微调。
对于每个实验,研究团队使用 90% 的人类数据来训练模型,然后用剩下的 10% 数据进行测试模型输出。在实验中,他们发现 Centaur 与人类数据的对齐水平高于更加任务特定(task-specific)的认知模型。例如,在两臂老虎机决策中,该模型生成的数据更接近参与者在老虎机上的选择,而非专门设计用于捕捉人类在该任务中决策方式的模型。
图|在不同保留数据集上的评估。a)在基于修改后的封面故事的两步任务中,响应的负对数似然值的平均值(n = 9,702)。b)在三臂老虎机实验中,响应的负对数似然值的平均值(n = 510154)。c)在基于法学院入学考试(LSAT)的逻辑推理实验中,响应的负对数似然值平均值(n = 99204)。
Centaur 还在其训练数据中未包含的修改任务上产生了类似人类的输出,例如在两臂老虎机实验中添加第三个老虎机。Binz 表示,这意味着研究人员可以利用 Centaur 在计算机模拟中开发实验,然后再将其应用于人类参与者,或者用于开发人类行为的新理论。
在一项案例研究中,研究团队展示了如何利用 Psych-101 和 Centaur 来指导可预测且可解释的认知模型开发。这一程序的各个步骤都是通用的,因此它可以作为未来在其他实验范式中模型驱动科学发现的蓝图。
不止如此,Centaur 还适用于自动化认知科学领域的更多应用场景。例如,它可以用于实验研究的计算机模拟原型设计。在此背景下,研究人员可以借助该模型确定哪些实验设计能够产生最大效应量、如何优化实验设计以减少所需参与者数量,或估算某一步骤的效果。
“我们才刚起步,就已然看到了巨大的潜力,” 慕尼黑亥姆霍兹 Human-Centered AI 研究所主任 Eric Schulz 表示。
接下来,研究人员计划对 Centaur 进行更深入的分析:哪些计算模式对应于特定的决策过程?它们能否用于推断人们如何处理信息——或健康个体与精神健康问题患者的决策策略有何差异?
研究人员坚信:“这些模型有潜力从根本上深化我们对人类认知的理解——前提是我们负责任地使用它们。”
有点“荒谬”?
尽管 Centaur 在精准预测人类行为方面展现出了令人意外的能力,并有望为医学、环境科学及社会科学等领域的科研与实际应用开辟新的可能性,却也遭到了多位认知科学家的质疑。
“我认为科学界很大一部分人会对这篇论文持怀疑态度,并对其提出严厉批评,”麦吉尔大学、魁北克人工智能研究所(Mila)计算神经科学家 Blake Richards 如此表示。他指出,该模型并未真正模拟人类认知过程,且无法保证其生成的结果能与人类行为相匹配。
更甚者,在布里斯托尔大学认知科学家 Jeffrey Bowers 看来,这一模型显得有点“荒谬”。他和他的团队测试了 Centaur,发现其行为明显非人类化。在短期记忆测试中,该模型能够回忆多达 256 位数字,而人类通常只能记住约 7 位。Bowers 指出,在反应时间测试中,该模型可以被触发以“超人类”速度(1毫秒)做出响应。他因此得出结论:该模型无法在训练数据之外进行泛化。
Bowers 还表示,Centaur 无法解释人类认知的任何方面。正如模拟时钟与数字时钟可以显示相同时间,但内部运作原理截然不同,虽然 Centaur 能够产生类似人类的输出,但其依赖的机制与人类思维完全不同。
马克斯·普朗克学会恩斯特·斯特朗格曼神经科学研究所计算认知科学家 Federico Adolfi 对此表示赞同。他指出,进一步的严格测试很可能表明该模型“非常容易失效”。他还指出,尽管 Psych-101 数据集规模令人印象深刻,但 160 个实验只是“认知的无限汪洋中的一粒沙子”。
不过,也有人对这项研究表达了肯定。伊利诺伊大学厄巴纳-香槟分校视觉科学家 Rachel Heaton 表示,虽然该模型并未提供理解人类认知的有用工具,但 Psych-101 数据集本身具有重要价值,因为其他研究人员可以利用它来测试自己模型的有效性。同时,Richards 也认为,未来研究 Centaur 内部运作机制的工作也可能具有重要意义。
另外,在奥克兰大学计算视觉神经科学家 Katherine Storrs 看来,尽管该论文提出了一些缺乏依据的笼统结论,但在数据集和模型方面投入了大量时间和精力,这项工作“从长远来看可能在科学上有所回报”。
参考链接:
(网址)
(网址)
(网址)
本文来自微信公众号:学术头条,作者:学术头条