阿里巴巴研究团队Qwen Team释出强调推论能力的实验性研究模型QwQ-32B-Preview,强调在某些数学能力基准测试上的表现,优于OpenAI的o1-preview。(图片来源/阿里巴巴)
阿里巴巴的Qwen Team本周释出了QwQ-32B-Preview,这是一个具备325亿个参数,脉络长度为32,768个Token,强调推论能力的实验性研究模型,在AIME及MATH-500等数学能力基准测试上的表现,胜过了OpenAI的o1-preview,在程式生成及解决程式设计问题的LiveCodeBench测试上亦有出色的表现。开发人员已可透过Hugging Face存取该模型。
Qwen团队指出,借由深入探索及无数试验,发现当模型有足够的时间思考、质疑及反射时,它对数学与程式码的理解就会深化,这种细致的反思与自我质疑的过程,令模型能够取得解决复杂问题的突破性进展,并在许多测试上取得卓越的成绩,像是评测高阶科学问题解决能力的GPQA,涵盖算数、代数、几何与概率等中学数学的AIME,包含500个测试样本的MATH-500,以及实际生成程式码的LiveCodeBench。
QwQ-32B-Preview在AIME与MATH-500的测试成绩分别达到50与90,超越OpenAI o1-preview的44.6及85.5,而它在GPQA及LiveCodeBench的成绩则是65.2及50,低于o1-preview的72.3及53.6。
不过,QwQ-32B-Preview模型目前仍有许多问题,包括它可能会在回答中使用不同的语言,影响表达的连异性;在处理复杂的逻辑问题时,偶尔会落入无尽的循环;可能产生不恰当或具偏见的回答;除了数学及程式码之外,它在其它领域仍有进步空间。
此外,根据TechCrunch的报导,由于这是中国制的模型,因此已自行内建各种符合该国政策的审核机制,例如它不会回应针对天安门事件的询问,还说台湾是中国不可分割的一部分。先前TechCrunch也曾发现,由中国快手所建置的影片生成模型Kling,也会拒绝生成有关中国国家主席习近平的影片。