“起大早赶晚集”的谷歌大模型，这次真的“遥遥领先”了？

本文来自微信公众号：观网财经（ID：tiequanhe），作者：杨依婷

最早推出Transformer架构的谷歌，一度在大模型竞赛中落后。好在随着Gemini的不断进化，谷歌正在回到第一梯队。

3月26日，Gemini 2.5 Pro上线，这个模型一经推出就登顶各大榜单，在Chatbot Arena上较第二名高出整整39分！

Gemini 2.5 Pro是一款推理模型。谷歌表示，推理能力不仅仅指分类和预测，而是指系统分析信息、得出逻辑结论、融入上下文和细微差别，以及作出明智决策的能力。

据悉Gemini 2.5 Pro目前支持100万token的上下文窗口，很快将推出200万token的上下文窗口，继承并发扬了Gemini模型的优势——原生多模态能力和超长上下文长度。

这让它能够理解海量数据集，并处理来自多种信息源的复杂问题，包括文本、音频、图像、视频，甚至完整的代码仓库。

在Chatbot Arena（由加州大学伯克利分校SkyLab和LMSYS的研究者开发，主要用于根据人类偏好评估大语言模型的性能）上，Gemini 2.5 Pro以横扫所有类别的显著优势排名第一，并且比紧随其后的Grok-3整整高出了39分。

同时Gemini 2.5 Pro还获得了创意写作、指令遵循和长查询三大领域唯一的冠军。

此外，Gemini 2.5 Pro成功登顶了视觉竞技场（Vision Arena）排行榜榜首。

在网页开发领域，作为首个实力媲美Claude 3.7 Sonnet的模型，Gemini 2.5 Pro成功获得了网页开发竞技场（WebDev Arena）的第二名。

不仅如此，Gemini 2.5 Pro在Humanity’s Last Exam(no tools)，GPQA和AIME 2025等数学和科学基准评测中同样表现卓越。

Humanity’s Last Exam(no tools)即“人类的最后考试（无工具）”，这里的“无工具”指在进行该考试时，不允许使用外部工具，如搜索引擎、数据库等。以往实验显示，最先进的LLMs在HLE上的准确率普遍低于10%，且存在信心与能力失衡、推理效率低等问题，表明当前LLM的能力与人类专家在封闭式学术问题上的前沿能力之间的差距。在这一背景下，Gemini 2.5 Pro 18.8%的成绩显得非常突出。

据悉，Gemini 2.5 Pro已在Google AI Studio和Gemini应用中，向Gemini Advanced用户开放，并将在Vertex AI上推出。

而它会在未来几周内公布定价方案，用户可以在更高使用配额下，将模型应用于大规模生产环境。

有意思的是，最近国内和国外两大著名的“起大早赶晚集”选手都发布了最新大模型，含金量是否都能达到评测显示的效果呢？