阿里巴巴释出具备325亿个参数的QwQ-32B-Preview模型

2024-11-29

阿里巴巴研究团队Qwen Team释出强调推论能力的实验性研究模型QwQ-32B-Preview，强调在某些数学能力基准测试上的表现，优于OpenAI的o1-preview。（图片来源／阿里巴巴）

阿里巴巴的Qwen Team本周释出了QwQ-32B-Preview，这是一个具备325亿个参数，脉络长度为32,768个Token，强调推论能力的实验性研究模型，在AIME及MATH-500等数学能力基准测试上的表现，胜过了OpenAI的o1-preview，在程式生成及解决程式设计问题的LiveCodeBench测试上亦有出色的表现。开发人员已可透过Hugging Face存取该模型。

Qwen团队指出，借由深入探索及无数试验，发现当模型有足够的时间思考、质疑及反射时，它对数学与程式码的理解就会深化，这种细致的反思与自我质疑的过程，令模型能够取得解决复杂问题的突破性进展，并在许多测试上取得卓越的成绩，像是评测高阶科学问题解决能力的GPQA，涵盖算数、代数、几何与概率等中学数学的AIME，包含500个测试样本的MATH-500，以及实际生成程式码的LiveCodeBench。

QwQ-32B-Preview在AIME与MATH-500的测试成绩分别达到50与90，超越OpenAI o1-preview的44.6及85.5，而它在GPQA及LiveCodeBench的成绩则是65.2及50，低于o1-preview的72.3及53.6。

不过，QwQ-32B-Preview模型目前仍有许多问题，包括它可能会在回答中使用不同的语言，影响表达的连异性；在处理复杂的逻辑问题时，偶尔会落入无尽的循环；可能产生不恰当或具偏见的回答；除了数学及程式码之外，它在其它领域仍有进步空间。

此外，根据TechCrunch的报导，由于这是中国制的模型，因此已自行内建各种符合该国政策的审核机制，例如它不会回应针对天安门事件的询问，还说台湾是中国不可分割的一部分。先前TechCrunch也曾发现，由中国快手所建置的影片生成模型Kling，也会拒绝生成有关中国国家主席习近平的影片。