Grok3来了,马斯克笑了,网站崩溃了

本文来自微信公众号:极客公园 (ID:geekpark),作者:宛辰,编辑:靖宇,题图来自:视觉中国

几个小时前,伊隆·马斯克终于发布了他口中“地球上最聪明的AI”——Grok3。

在Grok3中,马斯克团队一口气带来了“地表最强”基础模型、推理模型以及第一个agent(智能体)产品,还预告了正在路上的语音模型。官宣这一揽子新品,xAI旨在追平甚至超越当前所有领先的AI产品能力。让所有人都重视xAI这头“房间里的大象”。

Grok3新品发布一览|截图来源:X

目前,只有X社交平台的Premium+会员可以用Grok3测试版,但可能受限于其订阅价格(40美元/月)价格或发布时间(当地晚上)的原因,X平台暂未出现很多使用案例分享。

马斯克的老同事Andrej Karpathy(早年特斯拉自动驾驶负责人)提前内测了Grok3,综合使用下来,他认为Grok 3的能力大致与o1-pro(200美元/月)相当,优于DeepSeek-R1和Gemini 2.0 Flash Thinking。

同时,对于Grok3发的第一个Agent产品“Deep Search”,他认为这个功能大概和Perplexity的“Deep Research”产品差不多,可以查阅网络资料进行自主探索、给出高质量回答,但有时也会出现编造信息或错误引用的情况,似乎还没到OpenAI最新发布的“Deep Research”水平,后者给人感觉更全面更可靠。

马斯克直播刚结束,Andrej Karpathy在X平台发表了提前使用Grok3的感受。|截图来源:X

值得注意的是,Grok3的发布只有一场直播demo,没有官方博客和技术报告等更多信息。马斯克表示,模型每小时都在升级中,一周以后,Grok3会带来更好更稳定的能力和更多基准测试的成绩。

马斯克的号召力还是很强,Grok3网站刚一上线,就被热情的网友们点崩溃了。

显然,竞争越来越白热化的AI大战,让马斯克仓促地举办了这场发布会。Grok3以及xAI的含金量几何,还要再等等。

一、第一个10万级H100训练出来的模型,Grok3怎么样?

在已有谷歌、Anthropic和OpenAI的情况下,马斯克的xAI仍被视为最有希望与这三家巨头抗衡的公司之一。一大原因就在于拥有20万卡集群——Colossus。作为世界上最大的人工智能超级计算机,Colossus采用英伟达全栈参考设计,配备20万个英伟达Hopper GPU。

xAI的20万HopperGPU数据中心——Colossus。|截图来源:X

Grok3便是在这一集群上训练的,1月初刚刚完成了预训练,现在Grok3的计算能力是Grok-2的10倍以上。

马斯克表示,Grok3实际上仍然还在训练中,今天先展示Grok3在一部分基准测试中的成绩。

在其展现的评测标准上,Grok3在数学、科学、代码能力上全面领先。即便是Grok3-mini,也超越了Gemini、Claude、DeepSeek当前所能获得的最好基座模型。|截图来源:X

“如果上述基准看起来是在评测‘教科书的背诵能力’,那么在实际使用能力上,Grok3基座模型也确实是第一”。他们表示,在发布前两周,Grok3以巧克力的代号在Imarena基准(前Lmsys基准)上进行了盲评,问同一个问题,让用户根据回答评价哪个模型更好,该基准被视为更加客观的测试。

在马斯克直播的同时,Imarena.ai(原来Lmsys)放出了基准测试结果。|截图来源:X

在这一基准测试中,Grok3达到了1400分,这也是这一榜单首次出现超过1400分的基座模型。并且,Grok3在总体/风格控制、编码、数学、创意写作、指令遵循、长指令提问、多轮等基座模型的所有评测类别上,都是第一。

官方称Grok3还在不断更新中,每天、每小时都在改进,今天给大家演示的模型版本就比送去评测的版本更先进。同时,最佳的预训练模型显然不够,Grok3还可以像人类一样思考、反思、验证,回到第一性原理再思考等,具备了强大的推理能力。

他们表示,从1月初完成预训练模型以来,努力通过强化学习对其进行推理训练,现在还在早期阶段,但已经激发出了更多的能力。当给予更多的求解时间或者计算量,Grok3模型表现更好。未来,还会发布一个mini版本的推理模型。

Grok团队称,由于Grok3模型更大,所以展现出了更强大的推理泛化能力|截图来源:X

最后,团队放出了Grok3的第一代agent,帮助工程师、研究人员和科学家进行编码、帮助每个人回答研究问题,有点像下一代搜索引擎的“Deep Search”。该功能与此前谷歌、OpenAI和Perplexity的“Deep Research”类似,旨在帮助人类完成比较深度的研究工作。

现场demo中,Grok被问及“下一个星舰发射日”时,可以根据提问拆解用户意图、思考、查阅网站阅读、交叉验证信息来源、回答问题,团队称可以节省人类数十、上百小时的研究时间。|截图来源:X

二、Grok3究竟行不行,还需要让子弹再飞一会

看完马斯克的Grok3发布会,鲜少能感受到“世界上最聪明的AI”,总体是对齐第一梯队玩家、并没有超越的感觉。所以不少网友直呼:

“白瞎了”20万张HopperGPU

但现在下结论,还是太早了。

整个行业预训练上Scaling Law放缓,更多是受限于互联网数据用完了。换句话说,马斯克的20万卡集群和他本人的极致工程能力,还没有得以发挥。

我们来算算。

去年4月决定自建数据中心,迅速搞定英伟达20万张Hopper卡的到货,122天拉起了10万卡集群,又用92天将数据中心扩展到20万卡集群。这是独有的马斯克执行力。黄仁勋都说了,当模型大小增加一倍,算力崩掉的概率要多出一个数量级。马斯克在十万级卡上完成预训练满打满算也就半年多。

另一边,推理上的Scaling Law,放在整个AI行业也刚刚开始,而这部分也更吃算力、无论是需要做实验探索还是实际训练。

在不久前举办的迪拜世界政府峰会上,马斯克表示Grok3强大的推理能力背后,使用了创新的训练方法和大量合成数据,能够通过数据来回迭代实现逻辑一致性。如果发现错误数据,系统会反思并移除不符合现实的内容。但这些创新马斯克团队在今天的发布会上并未提及,就像他说的Grok3还在继续训练中,更好的版本要等下周以后。

显然,AI竞争白热化,让马斯克在当下显仓促地拿出了Grok3。或许是要在谷歌、Anthropic、OpenAI在接下来一两周内更新下一代模型之前,占个先手。至少让大家看到Grok3即将追平现状了,但究竟有没有突破、能不能再突破,还需要时间的检验。

别忘了,马斯克可是战略高手,一方面加紧修炼xAI,一方面放出“收购OpenAI”的新闻给对手造成困扰。在AI这条路上,你很难预测马斯克到底能做出什么来。