Grok3来了，马斯克笑了，网站崩溃了

本文来自微信公众号：极客公园（ID：geekpark），作者：宛辰，编辑：靖宇，题图来自：视觉中国

几个小时前，伊隆·马斯克终于发布了他口中“地球上最聪明的AI”——Grok3。

在Grok3中，马斯克团队一口气带来了“地表最强”基础模型、推理模型以及第一个agent（智能体）产品，还预告了正在路上的语音模型。官宣这一揽子新品，xAI旨在追平甚至超越当前所有领先的AI产品能力。让所有人都重视xAI这头“房间里的大象”。

Grok3新品发布一览｜截图来源：X

目前，只有X社交平台的Premium+会员可以用Grok3测试版，但可能受限于其订阅价格（40美元/月）价格或发布时间（当地晚上）的原因，X平台暂未出现很多使用案例分享。

马斯克的老同事Andrej Karpathy（早年特斯拉自动驾驶负责人）提前内测了Grok3，综合使用下来，他认为Grok 3的能力大致与o1-pro（200美元/月）相当，优于DeepSeek-R1和Gemini 2.0 Flash Thinking。

同时，对于Grok3发的第一个Agent产品“Deep Search”，他认为这个功能大概和Perplexity的“Deep Research”产品差不多，可以查阅网络资料进行自主探索、给出高质量回答，但有时也会出现编造信息或错误引用的情况，似乎还没到OpenAI最新发布的“Deep Research”水平，后者给人感觉更全面更可靠。

马斯克直播刚结束，Andrej Karpathy在X平台发表了提前使用Grok3的感受。｜截图来源：X

值得注意的是，Grok3的发布只有一场直播demo，没有官方博客和技术报告等更多信息。马斯克表示，模型每小时都在升级中，一周以后，Grok3会带来更好更稳定的能力和更多基准测试的成绩。

马斯克的号召力还是很强，Grok3网站刚一上线，就被热情的网友们点崩溃了。

显然，竞争越来越白热化的AI大战，让马斯克仓促地举办了这场发布会。Grok3以及xAI的含金量几何，还要再等等。

一、第一个10万级H100训练出来的模型，Grok3怎么样？

在已有谷歌、Anthropic和OpenAI的情况下，马斯克的xAI仍被视为最有希望与这三家巨头抗衡的公司之一。一大原因就在于拥有20万卡集群——Colossus。作为世界上最大的人工智能超级计算机，Colossus采用英伟达全栈参考设计，配备20万个英伟达Hopper GPU。

xAI的20万HopperGPU数据中心——Colossus。｜截图来源：X

Grok3便是在这一集群上训练的，1月初刚刚完成了预训练，现在Grok3的计算能力是Grok-2的10倍以上。

马斯克表示，Grok3实际上仍然还在训练中，今天先展示Grok3在一部分基准测试中的成绩。

在其展现的评测标准上，Grok3在数学、科学、代码能力上全面领先。即便是Grok3-mini，也超越了Gemini、Claude、DeepSeek当前所能获得的最好基座模型。｜截图来源：X

“如果上述基准看起来是在评测‘教科书的背诵能力’，那么在实际使用能力上，Grok3基座模型也确实是第一”。他们表示，在发布前两周，Grok3以巧克力的代号在Imarena基准（前Lmsys基准）上进行了盲评，问同一个问题，让用户根据回答评价哪个模型更好，该基准被视为更加客观的测试。

在马斯克直播的同时，Imarena.ai（原来Lmsys）放出了基准测试结果。｜截图来源：X

在这一基准测试中，Grok3达到了1400分，这也是这一榜单首次出现超过1400分的基座模型。并且，Grok3在总体/风格控制、编码、数学、创意写作、指令遵循、长指令提问、多轮等基座模型的所有评测类别上，都是第一。

官方称Grok3还在不断更新中，每天、每小时都在改进，今天给大家演示的模型版本就比送去评测的版本更先进。同时，最佳的预训练模型显然不够，Grok3还可以像人类一样思考、反思、验证，回到第一性原理再思考等，具备了强大的推理能力。

他们表示，从1月初完成预训练模型以来，努力通过强化学习对其进行推理训练，现在还在早期阶段，但已经激发出了更多的能力。当给予更多的求解时间或者计算量，Grok3模型表现更好。未来，还会发布一个mini版本的推理模型。

Grok团队称，由于Grok3模型更大，所以展现出了更强大的推理泛化能力｜截图来源：X

最后，团队放出了Grok3的第一代agent，帮助工程师、研究人员和科学家进行编码、帮助每个人回答研究问题，有点像下一代搜索引擎的“Deep Search”。该功能与此前谷歌、OpenAI和Perplexity的“Deep Research”类似，旨在帮助人类完成比较深度的研究工作。

现场demo中，Grok被问及“下一个星舰发射日”时，可以根据提问拆解用户意图、思考、查阅网站阅读、交叉验证信息来源、回答问题，团队称可以节省人类数十、上百小时的研究时间。｜截图来源：X

二、Grok3究竟行不行，还需要让子弹再飞一会

看完马斯克的Grok3发布会，鲜少能感受到“世界上最聪明的AI”，总体是对齐第一梯队玩家、并没有超越的感觉。所以不少网友直呼：

“白瞎了”20万张HopperGPU。

但现在下结论，还是太早了。

整个行业预训练上Scaling Law放缓，更多是受限于互联网数据用完了。换句话说，马斯克的20万卡集群和他本人的极致工程能力，还没有得以发挥。

我们来算算。

去年4月决定自建数据中心，迅速搞定英伟达20万张Hopper卡的到货，122天拉起了10万卡集群，又用92天将数据中心扩展到20万卡集群。这是独有的马斯克执行力。黄仁勋都说了，当模型大小增加一倍，算力崩掉的概率要多出一个数量级。马斯克在十万级卡上完成预训练满打满算也就半年多。

另一边，推理上的Scaling Law，放在整个AI行业也刚刚开始，而这部分也更吃算力、无论是需要做实验探索还是实际训练。

在不久前举办的迪拜世界政府峰会上，马斯克表示Grok3强大的推理能力背后，使用了创新的训练方法和大量合成数据，能够通过数据来回迭代实现逻辑一致性。如果发现错误数据，系统会反思并移除不符合现实的内容。但这些创新马斯克团队在今天的发布会上并未提及，就像他说的Grok3还在继续训练中，更好的版本要等下周以后。

显然，AI竞争白热化，让马斯克在当下显仓促地拿出了Grok3。或许是要在谷歌、Anthropic、OpenAI在接下来一两周内更新下一代模型之前，占个先手。至少让大家看到Grok3即将追平现状了，但究竟有没有突破、能不能再突破，还需要时间的检验。

别忘了，马斯克可是战略高手，一方面加紧修炼xAI，一方面放出“收购OpenAI”的新闻给对手造成困扰。在AI这条路上，你很难预测马斯克到底能做出什么来。