OpenAI最强推理模型o3发布，首次能用图片思考

本文来自微信公众号：APPSO （ID：appsolution），作者：APPSO，原文标题：《刚刚，OpenAI最强推理模型o3发布，首次能用图片思考，奥特曼：天才水平》，题图来自：AI生成

“o3达到或接近天才的水平。”

就在刚刚，OpenAI o3/o4 mini模型终于正式推出。直播用时接近30分钟，节奏快到飞起，信息量却满满当当。

o3的发布历程本身也极具反转，今年2月，OpenAI曾宣布搁置o3的独立发布计划，技术会打包塞进GPT-5里。到了4月初，深谙“饥饿营销”的Altman却宣称计划有变：

o3要先上，GPT-5反而得等等，最快也得几个月后。

划重点，OpenAI o3/o4 mini的亮点如下：

o系列迄今最智能的模型，推理能力大幅提升，思考时间越长，效果越好。

首次将图像直接融入思维链，用图片“思考”，能直接调用工具处理图片。

首次全面支持网页搜索、文件分析、Python代码执行、视觉输入深度推理和图像生成等功能。

成本效率上优于前代，o3在相同延迟和成本下性能更强。

在模型选择器上取代o1等模型，ChatGPT Plus、Pro和Team用户即日起可使用o3、o4-mini和o4-mini-high，企业与教育用户一周后获访问权限。o3-pro预计数周内发布。

免费用户可通过“Think”模式使用o4-mini，速率限制不变。

开发者则可通过Chat Completions API和Responses API访问，支持推理摘要和函数调用优化，即将支持网页搜索等内置工具。

OpenAI最强推理模型o3发布，GPT-5还会远吗？

最新发布的o3和o4-mini，是o系列迄今最智能的模型。

这两款模型在推理能力、工具使用和多模态处理上表现出色，能够更长时间思考复杂问题，首次全面支持网页搜索、文件分析、Python代码执行、视觉输入深度推理和图像生成。

上至高级研究人员，下至普通用户，新模型适用的场景也更广泛。

OpenAI o3和o4-mini可以调用ChatGPT中的工具，并通过API中的函数调用访问自定义工具。

通过强化学习，OpenAI还训练了这两个模型如何使用工具——不仅知道如何用、何时用，还能以正确格式快速生成可靠答案，通常耗时不到一分钟。

比如，当被问及加州夏季的能源使用量与去年相比如何时，能上网查询公共能源消耗数据，写Python代码预测，生成图表或图片，并解释预测依据，流畅串联多种工具。

整个推理搜索过程也胜在灵活多变：模型可多次调用搜索引擎，交叉验证结果；若自有知识不足，还能进一步挖掘信息、整合跨类型输出。

在今天凌晨的直播环节，OpenAI总裁Greg Brockman也罕见露面。OpenAI演示者则展示了新模型如何结合用户兴趣，发现用户可能感兴趣但尚未知道的内容。

新模型启用“记忆”功能后，能够了解演示者的兴趣爱好——跳伞和音乐。

不是简单分别讨论两个爱好，新模型找到了一个将两者联系起来的研究领域：科学家录制健康珊瑚礁的声音，然后用水下扬声器回放这些录音，这种声音回放加速了新珊瑚和鱼类的定居，能够帮助珊瑚礁更快地愈合和再生。

在内容创建过程中，模型还自动创建了一篇完整的博客文章，先是使用数据分析工具生成可视化，用Canvas创建博客文章，并附上了引用和来源。

作为最新的旗舰推理模型，o3在编程、数学、科学和视觉感知领域创下新纪录，例如Codeforces、SWE-bench和MMMU基准测试，视觉任务准确率达87.5%，MathVista也有75.4%。

外部专家评估显示，o3在编程、商业咨询和创意构思的重大错误率也比o1低20%，在生物学、数学和工程领域能生成并批判性评估新颖假设，适合复杂查询。

o4-mini“体型更小”，优化了快速、低成本推理，在AIME 2024和2025数学测试中准确率分别为92.7%和93.4%，在非STEM和数据科学任务中优于o3-mini，效率高，能处理更多请求，也更适合需要快速响应的场景。

性能对比显示，o3和o4-mini在AIME、Codeforces、GPQA和MMMU等测试中全面超越前代，且指令遵循和响应质量也都显著提升，结合记忆功能和历史对话引用，回答更个性化、更相关。

在OpenAI o3的整个开发过程中，OpenAI观察到，大规模强化学习呈现出与GPT系列预训练中相同的“计算量越大，性能越好”的趋势。

沿着这一路径（强化学习），OpenAI在训练计算量和推理时间方面都提升了一个数量级，且看到了明显的性能提升，在与o1相同的延迟和成本下，o3的表现更强，而且给它更多时间思考，效果还能更好。

不忘画饼的OpenAI也表示，o3和o4-mini已经展现了o系列推理能力与GPT系列自然对话和工具使用的融合趋势，而未来模型（GPT-5）预计将进一步整合这些优势，为用户提供更智能、实用的体验。

能用图片“思考”，就是偶尔会“想太多”

OpenAI o3和o4-mini还是o系列最新的视觉推理模型。

怎么理解视觉推理模型呢？据官方介绍，模型首次将图像直接融入思维链，开启了一种融合视觉与文本推理的全新问题解决方式。

配合Python数据分析、网络搜索和图像生成等工具，还能应对更复杂的任务。

上传白板照片、教科书图表或手绘草图，即便图像糊了、反转或质量不佳，模型也能准确解读，并直接调用工具处理图片，裁剪、旋转、缩放等操作都不在话下。

重点是，这些功能是原生的，无需依赖单独的专用模型。

博主@danshipper通过一张模糊的照片找到了一个婴儿车品牌，从画面上看，整个过程也搜索了数十个网页。

我也上传了武康大楼的图片，o3准确识别到了建筑位于淮海路附近，不过，回答却并没有给出建筑的名字。

当然，这种思考方式也不是没有“缺陷”：

想得太多：模型可能过于依赖工具或图像处理，导致推理思维链冗长。

看走眼：即使工具使用正确，视觉误解也可能导致答案错误。

不稳定：同一问题多次尝试，模型可能采用不同推理路径，部分结果出错。

Codex CLI免费开源，OpenAI真open了？

o3和o4-mini在成本效率上优于前代，在2025年AIME测试中，性价比完胜o1和o3-mini，更智能也更划算。

o3输入每百万tokens（大约75万个词，长度超过《指环王》系列）的费用为10美元，输出每百万tokens的费用为40美元。

o4-mini输入每百万tokens的费用为1.10美元，输出每百万tokens的费用为4.40美元。

前不久，OpenAI被曝安全测试时间从数月缩水到了几天。而o3和o4-mini的系统卡则显示，OpenAI重建了安全训练数据集，新增生物威胁、恶意软件生成和越狱攻击的拒绝提示。

根据最新的《准备框架》，o3和o4-mini在生物与化学、网络安全及AI自我改进领域风险均低于“高”阈值。

附Codex CLI GitHub地址：（网址）

Agent虽迟但到，OpenAI还推出了一款轻量级终端编码Agent——Codex CLI。

基于o3和o4-mini的推理能力，Codex CLI支持多模态输入，已在GitHub开源。此外，OpenAI还启动100万美元计划支持相关项目，接受2.5万美元API积分资助申请。

OpenAI这回是真open了。

据介绍，Codex有两种运行模式，一种是“建议模式”（默认）：提出命令供用户确认，另一种是“全自动模式”：禁用网络访问，让Agent自主工作但保持安全。

在直播演示中，OpenAI研究员将屏幕截图拖入终端，Codex CLI通过多模态推理分析图像，访问用户文件，最终生成HTML文件，打造了一个ASCII艺术生成器，并成功添加了网络摄像头API。

值得一提的是，据彭博社报道，OpenAI拟以约30亿美元收购AI编程工具公司Windsurf，如果收购成功，这将成为OpenAI迄今为止规模最大的收购案。

报道指出，一旦交易达成，OpenAI将能够与Anthropic、微软旗下的Github和Anysphere等公司展开更直接的竞争，从而在快速增长的AI编程工具市场中占据一席之地。

“天才级”o3引Altman转发力挺，但这些题却答不对

一些X平台博主提前拿到了新模型的体验资格，并分享了使用体验。

体验一周的@danshipper表示，o3速度快、很有“行动力”、极其聪明，而且整体感觉非常棒。最喜欢的用法包括：

制定了一个简洁的机器学习小课程，并每天早上提醒博主学习；
通过一张模糊的照片找到了一个婴儿车品牌；
用超快的速度写出了一个全新的AI基准测试程序；
像X光一样分析了Annie Dillard的一篇经典作品，挖掘出博主以前从未注意到的写作技巧；
查看会议记录，敏锐捕捉博主试图回避冲突的情况；
分析组织架构后，建议推出什么样的产品，以及短板在哪。

医学博士@DeryaTR_认为o3很聪明，“当我向o3提出具有挑战性的临床或医学问题时，它的回答听起来就像是来自顶级医生：准确、全面、基于证据且充满信心，表现得非常专业，完全符合我们对这个领域专家的期望。”

Altman也转发引用了他的说法，“o3达到或接近天才的水平”。

在@DeryaTR_看来，o4 mini则稍微“低调”一些，回答细节上没有o3那么详细，可能更简洁、流畅，给人一种优雅的感觉，甚至可能更具“情感”。

当然，我们也上手测试了一些问题。

从前有一位老钟表匠，为一个教堂装一只大钟。他年老眼花，把长短针装配错了，短针走的速度反而是长针的12倍。装配的时候是上午6点，他把短针指在“6”上，长针指在“12”上。老钟表匠装好就回家去了。人们看这钟一会儿7点，过了不一会儿就8点了，都很奇怪，立刻去找老钟表匠。

等老钟表匠赶到，已经是下午7点多钟。他掏出怀表来一对，钟准确无误，疑心人们有意捉弄他，一生气就回去了。这钟还是8点、9点地跑，人们再去找钟表匠。老钟表匠第二天早晨8点多赶来用表一对，仍旧准确无误。请你想一想，老钟表匠第一次对表的时候是7点几分？第二次对表又是8点几分？

o3回答错误

U2合唱团在17分钟内得赶到演唱会场，途中必须跨过一座桥，四个人从桥的同一端出发，你得帮助他们到达另一端，天色很暗，而他们只有一只手电筒。一次同时最多可以有两人一起过桥，而过桥的时候必须持有手电筒，所以就得有人把手电筒带来带去，来回桥两端。

手电筒是不能用丢的方式来传递的。四个人的步行速度各不同，若两人同行则以较慢者的速度为准。Bono需花1分钟过桥，Edge需花2分钟过桥，Adam需花5分钟过桥，Larry需花10分钟过桥。他们要如何在17分钟内过桥呢？

o4 mini回答正确

如下实测，o3虽然给出了完整的推理步骤，回答却再次出错。

o3回答错误

在OpenAI上新之际，细心的网友也发现，新款Gemini将于下周（4月22日）发布。

DeepSeek R2、Anthropic的Claude 4以及马斯克剧透的“GroK-3.5”也预计将在本月陆续发布。

即便往前看，4月也是AI最为“内卷”的一个月，很大程度上决定未来一年AI行业的发展走向，而更强的模型、更低的成本、更广的场景也将给我们带来更智能、更普惠的未来。

附OpenAI团队在X平台上举办的AMA总结：

OpenAI计划在未来几个月发布一个出色的开放模型，新的图像生成功能将很快在API中推出。

o3现已在API中提供，而更先进的o3-pro模型正在开发中，预计很快发布。

强化学习微调（Reinforcement fine-tuning）很快会全面开放，允许公开进行微调或使用推理模型进行强化学习（RL）。

在Responses API中，开发者消息与系统消息之间的切换是自动处理的；将系统消息发送给o3或将开发者消息发送给GPT-4.1会自动转换。

目前，ChatCompletions或Responses API不支持托管工具。

在o3和o4-mini的推理阶段，Web搜索、文件搜索和代码解释器等工具会被积极使用；这些工具目前在ChatGPT中已被支持，但尚未在API中支持——预计很快会添加支持。

OpenAI正在积极开发Agents SDK中的线程支持，以改善对话历史和记忆。

OpenAI认为低代码平台在Agents SDK中的建议很有趣，并欢迎开发者就最有用的功能提供反馈。

Codex CLI包括多个文档化的审批模式，允许用户为每个操作或会话选择模式。

Codex CLI并不是用来替代Cursor、Windsurf等IDE工具；它的设计目的是在用户使用主要IDE时运行后台任务。

比较Codex的编码能力和深度研究能力取决于选择的模型（o3或o4-mini）；Codex特别利用函数调用，直接在用户计算机上执行命令。

新模型主要训练于通用浏览器、Python/代码执行工具和对开发者有用的用户定义工具。

虽然GPT-4.5更强大，但它更慢且计算密集，GPT-4.1为开发者提供了一个更快且更具成本效益的选择。

GPT-4.1的一些改进已经整合到ChatGPT中，更多改进将在未来推出。

OpenAI承认“4o”和“o4”等模型名称之间存在命名混淆，并计划很快简化模型命名。

本文来自微信公众号：APPSO （ID：appsolution），作者：APPSO