研究人员使用错误中学习的人类学习法来训练AI模型

Photo by

微软亚洲研究院、北京大学、西安交通大学研究人员提出名为从错误中学习(Learning from Mistake,LeMA)的AI训练方法,模仿人类学习知识的过程,来改进AI推理能力。

现今大型语言模型在自然语言处理(NLP)任务,特别是解决需要复杂思维链(chain-of-thought,CoT)推理的数学难题任务,例如OpenAI GPT-4和Google PaLM-2在一些数学题目资料集如GSM8K及MATH都有不错表现。但开源LLM如LLaMA-2及Baichuan-2等则有待加强。为了提升开源LLM的CoT推理能力,研究团队提出LeMA方法。这种方法是模仿人类,像是学生解决数学习题的过程:他们使用的是回溯式学习,即从错误中学习,以改进其推理能力。

因此,研究人员的方法是生成一对包含错误与修正版资料的资料对(称为修正资料),再以此资料来微调LLM。为取得修正资料,研究人员搜集了5个不同LLM(包括LLaMA及GPT系列)的错误答案和推理途径,再以GPT-4为「订正者」提供修正。修正包含三类资讯,分别是辨识出原有推理的错误步骤、解释推理为什么错,最后修正错误、以及说明如何修正原方法以获得最后正确答案。之后由人类评估够好的修正答案再用以微调LLM。

图片来源_arXiv:2310.20689 [cs.CL]

研究人员以2种问题资料集(GSM8K及MATH)实验LeMa方法对5个开源LLM的效果,并比较只以CoT资料集来微调LLM的效果。结果显示,以LLaMA-2-70B为例,它在两种方法下,在GSM8K的准确率分别为83.5%及81.4%,在MATH则分别为25.0%及23.6%。此外,他们也实验了WizardMath及MetaMath二种专门领域LLM的准确率,在GSM8K资料集测试中,获致84.2%及85.4% pass@1 准确率,而MATH资料集则达27.1%及26.9%,这个成绩超越非执行(non-execution)开源模型在同样任务中的表现。

此外,他们发现,在同样资料量的训练集下,LeMA方法也比纯CoT微调来得好。此外,整合CoT资料及修正资料,微调效果更优於单一资料来源的微调结果。

研究人员已将LeMA的程式码、模型、资料公开在GitHub上