6522 字
33 分钟
评OpenAI发布o3&o4mini:喧嚣落幕,长路开启

2023年初,GPT-4横空出世,重塑了人们对大模型“极限”的认知。彼时,GPT-3.5已是业内翘楚,而GPT-4的发布则像是一记重锤,砸下了OpenAI在自然语言处理、逻辑推理、代码生成乃至跨模态理解等多项能力的霸主地位,推动整个行业进入SOTA(State-of-the-Art)不断刷新的加速通道。

两年后,2025年4月16日,OpenAI正式在直播中发布o3和o4mini,模型同步上线ChatGPT官网和客户端。形式上,这是一场延续传统节奏的模型发布会;情感上,它本该是又一次“引领新范式”的时刻。但落实到生产环境,当我们审视OpenAI近期的模型更新,包括最新的o3、o4mini以及前两天的GPT 4.1系列,却发现那种“一骑绝尘”的领先优势似乎正在消退。

无论是在标准评测中被Gemini 2.5 Pro超车,还是在编码能力和长上下文处理上逐步被Anthropic与Google追平乃至长期超越,OpenAI所面临的,不再是“引领一切”的熟悉剧本,而是一个对手林立、标准碎片化、差异化竞争加剧的“后神话时代”。大模型的黄金纪元或许尚未终结,但那种每一次发布都能重新定义“AI时代”的光环,已然暗淡。

NOTE

如果你不想看各种Benchmark表格数据,可以直接快进到第二节“几个比较刁钻的隐忧”

一、模型速览与Benchmark观察#

认识一个模型性能最直接和简单的方法就是看各种benchmark。虽然榜单可能会被刷/因为各种算法原因导致不公平评估,但终究是比我们自己“俺寻思”能更加拟合实际性能曲线的。

1.OpenAI自己的报告#

OpenAI

后面的各种OpenAI自己的编程基准测试还有指令遵循榜单什么就不放了,总之结论是o3 和 o4mini的性能表现比之前的o1还有o3mini要好一大截,o3 和 o4-mini 是 OpenAI 迄今为止发布的最智能模型,而且它们通常也比其前辈 o1 和 o3-mini 更高效。

例如,在 2025 年 AIME 数学竞赛中,o3 的性价比边界比 o1 有显著提升;同样,o4-mini 的性价比边界也比 o3-mini 有显著提升。

更普遍地讲,OpenAI 预计,在大多数实际应用中,o3 和 o4-mini 也将分别比 o1 和 o3-mini 更智能、更经济。

2.Artificial Analysis LLM Leaderboard#

榜单

可以看到排名还是稳的

3.Aider LLM Leaderboards 衡量模型编码能力的榜单#

Aider 目前理论上的最优解是让O3当架构师,4.1作为最终的执行者去编写具体代码

4.LiveBench 我目前认为最权威的衡量模型性能的榜单#

Livebench 可以看到,目前的模型性能排行里最强的是o3 High,其次是o4-Mini High,第三是Gemini 2.5 Pro。

5.总结#

综合来看,各项Benchmark数据显示,o3与o4mini相较于前代模型(o1、o3mini)在性能和效率上均有显著提升。特别是在LiveBench等综合性及编码能力评测中,o3(尤其是o3 High)展现出了顶尖水平,位列榜首。然而,值得注意的是,Gemini 2.5 Pro等竞争对手紧随其后,差距微小。这表明虽然OpenAI在新模型上依然保持了强大的竞争力,但大模型领域的竞争已进入白热化阶段,领先优势并非牢不可破。

注意,这是Benchmark的数据显示

二、几个比较刁钻的隐忧#

1.o3在输出风格上很有R1味#

作为一个从2022年12月注册ChatGPT,23年年末DeepSeek V1发布就第一时间上手试用,24年年中DeepSeek V2发布就哐哐注册api给深度求索送钱,24年年末R1发布当晚直接爽玩,4月16日o3发布凌晨掀开被窝激情开测的开发者来说……

目前的o3似乎在中文输出风格上,R1味有点太冲了

我在这里很难用书面的方法去展现R1味到底冲在哪了。我只能说如果你熟悉R1 或者V3 new遣词造句的文风格式,熟悉那种“味”,那么一旦当你开始使用o3,那种好比是Speed终于遇到大张伟的熟悉感会顿然涌上你的心头,让你发出释怀的笑。

关于这个现象,我有一个很恶毒的猜测和一个不是那么恶毒的猜测。

恶毒一点的猜测是:OpenAI在训练模型的中文能力时,可能“参考”了R1的对话数据,甚至在某些阶段直接用于蒸馏或风格迁移的微调,导致中文输出风格趋同。考虑到R1在中文长文本和特定领域(如写作、知识问答)的优异表现,且R1发布即开源,所有人都可以自由托管和商业使用R1模型,在这个数据黑箱化、预训练巨量语料不可见的时代,边界从来不是清清楚楚的,很多东西模糊又灰色,最后都只能靠“味觉”来判断

所以,如果o3在某个阶段真的“借鉴”了R1的语料或生成内容,无论是“用户行为间接采集”还是“平台内容重采样”,那倒也不能算是完全不可想象的事。更别说,R1本身就是当前中文市场最能打的模型之一,语料的结构和分布天然就带有训练价值——作为一家完全商业化的大模型公司,OpenAI确实是有这个动机去学习参考的。

不那么恶毒的猜测是:o3与o4mini之所以展现出浓厚的“R1风格”,可能并非数据“致敬”,而是技术路径上的自然趋同。

一方面,o3和o4mini在训练过程中均采用了DS R1同款的RL强化学习策略,RL虽然可以有效且显著的提升模型的推理能力、对齐人类偏好,但同时也会造成模型幻觉率的飙升:OpenAI技术报告称,o3和o4-mini「幻觉率」远高于此前的推理模型,甚至超过了传统模型GPT-4o。根据PersonQA基准测试,o3在33%的问题回答中产生了幻觉,几乎是o1(16%)的2倍。而o4-mini的表现更加糟糕,幻觉率高达48%

前OpenAI研究员Neil Chowdhury表示,o系列模型使用的强化学习算法,可能是问题的根源。

甚至,有网友一针见血地指出,「o3对编写和开发超1000行代码的项目极其不利,幻觉率极高,且执行指令能力非常差」。不管是在Cursor,还是Windsurf中,o3编码幻觉问题显著。

另一方面,这或许也是中文大模型在发展至现阶段后的一种风格收敛现象。就像早期神经机器翻译刚刚兴起时,各家的“机翻腔”都像是同一个老师教出来的那样呆板,现在反而越来越接近自然语言的真实语感;中文LLM经过大规模语料预训练和长时间对齐优化后,也许都在逼近一个“通用且高效”的表达范式——而R1,只是率先踏入了这个风格带的那一位。

张口闭口量子力学夹点洋人腔这种事不要啊(

有群友表示o3和o4mini那个文风肯定是蒸了R1的,只有V3和R1会那么说话,令人感慨

所以,这件事其实巨他妈抽象,原来都是大家集体蒸OpenAI的,谁能想到现在的OpenAI(有可能)去反过来蒸别人了呢?

实际上,我自己倾向于第二种说法。如果你上手体验了字节的Doubao 1.5 thinking模型,会发现R1、o3和doubao 1.5 thinking在输出内容风格和幻觉程度上存在很大程度上的相似性,只是o3和doubao相对来说风格不是那么肆意飞扬,稍微好了一些。

2.部分友商模型“跑分没赢过,实际体验没输过”#

是的,我指的就是Claude 3.5 sonnet和Claude 3.7 sonnet。这俩模型在开发者社区和编码领域是近乎无敌的存在。

在LiveBench、MMLU、GSM8K这些标准化评测中,Claude 3.5/3.7 Sonnet 虽然始终未能站上榜首,甚至在部分任务上连Top 3都摸不到边,但一旦你真正上手用它们来做开发任务、代码辅助、文档生成和工具调用时,它就是一种诡异的「越用越顺手」的存在。

尤其是工具调用,我不知道是 Cursor 和 Windsurf 等 IDE 的系统设计是不是专门为了 Claude 优化过的,但 Claude 的表现真的离谱地好:精准调用函数、不乱跳步、能推理工具的设计意图,还不会偷懒。你让它接入一个外部函数、调试一个中间状态、改一段提示逻辑,它不仅能照做,而且能顺带帮你兜一圈上下文逻辑,修个你没察觉的 bug。

Claude舒服的地方在于它不像 GPT 系列那样“非要你把指令说到尽头才开始动手”,也不会像 Gemini 那样喜欢大搞“破坏性编程”,Claude 更像是你熟悉多年的牛马资深程序员,不仅懂你的代码,还开始懂你的人了——你要的是 功能可维护性语义一致性,它全给你打包搞定。

而在 Claude 3.7 上,这种感受进一步升级。3.7 不仅延续了 3.5 的超强上下文连贯能力,在自然语言生成、内容总结、信息检索与重组方面也逐渐逼近该领域SOTA模型的水平,同时解决了之前 Claude 系列偶尔“机械重复”或“语言风格偏保守”的问题,让整体交互过程更松弛、更自然。

对比之下,GPT 系列虽然依旧强势,但在工具调用的鲁棒性、代码生成的意图一致性、以及复杂任务的状态记忆能力上,已经在许多实操场景中开始被 Claude 逐渐蚕食。这就很像是我们这些早期模型用户熟悉的一个体验悖论:跑分高的,未必是你愿意日常用的;跑分中等的,反而是你一直留在侧栏、舍不得关的模型。

现在,这种悖论正在被 Claude 重新定义:不吵不闹,不炫技,也不搞什么“仿生”表演,而是扎扎实实把你的生产力抬一档。从这一点来看,OpenAI 的领先确实还在,但竞争对手们也已经不再是“差一个世代”,而是“差一个偏好”和“差一个界面集成”而已。

3.降智!降智!还是降智!#

奥特曼那点心思全对付他客户去了,防客户防比防友商还狠

传说中,这个世界上有两种GPT:一种是大家普遍用到手的,已经降智到连自己爹都不认识的普通GPT;还有一种是只活在KOL和OpenAI信徒的嘴里的那种无降智的薄纱其他所有模型的GPT。

遗憾的是,我和大多数开发者、写作者、爱好者一样,接触到的,绝大多数情况下是第一种

自从 GPT-4 于 2023 年初发布以来,关于「降智」的争议就没停过。4.0 刚出那阵子,是真的震撼,那种一眼惊艳、处处可靠的语言组织力与多步推理能力,堪称 AI 使用体验的黄金时代。但从 2023 年 Q3 开始,一切都开始变了:

  • 不该忘的上下文,它开始忘;
  • 明明能回答的问题,它开始扯别的;
  • 结构化提问,它能写出洋洋洒洒一大段模糊废话,但就是不肯列点;
  • 你让它生成代码,它会直接偷懒给你一个摘要,剩下的要求你自己写

可能不是我们不会用了,而是被“打上标签”了。

一个月200刀的Pro用户可以纵享丝滑,API用户才配享真正的智能,免费用户看看热闹就行,Plus用户……嗯,Plus用户交了钱也不是人。

用户体验一路走来有点像开盲盒:你永远不知道今晚上线的,是哪一个版本的GPT在陪你过夜。这在体验层面造成了极大的挫败感。明明你知道它「本来是会的」,甚至可能「一个月前还会」,可现在它偏偏不愿给你写、不愿继续、不愿回答。而这一切的最终解释,永远是那句玄学通用句:“模型行为是不可预测的。”

上述三点,导致了新模型o3和o4 mini跑分很好看,但落到现实使用中可能综合体验并不如Claude 3.7 sonnet/Gemini 2.5 Pro,甚至是自家上一代模型4o。新的模型确实进一步拓展了推理模型的性能边际,但距离一个大家设想中的新全能旗舰模型还差得很远。

NOTE

此处致敬传奇万亿参数再过几个月就要从api里下线的肺雾模型GPT 4.5

三、批判性观点:OpenAI的优势/护城河是什么?#

当然啊当然,本篇博客我无意疯狂看空OpenAI,无论如何OpenAI作为大模型领域的先驱者,仍然拥有着巨大的存量优势。o3和o4mini的优势区间为模型基础的视觉能力,OpenAI黑科技一般的对齐能力,和ChatGPT本身作为一个大的Agent产品的设计能力。

1.自GPT 3.5发布以来就无人能及的黑科技一般的对齐能力#

我不得不承认的是,OpenAI在模型对齐方面确实直到现在都无人能及。无论是指令遵循、角色扮演、场景安全,还是整体语言风格的收束度,GPT 系列依然是“最像人在和你对话”的模型之一。这种极致“拟人感”背后,靠的是大规模的人工反馈、有监督微调、强化学习、分层安全审查等复杂系统协同训练的结果,而不是单纯的“规模压制”或者“架构创新”。

这意味着什么?意味着OpenAI并不是只会训练大模型的公司,它更像是一家“AI行为塑造公司”,它在努力训练一种符合当代社会技术伦理、法律红线、审查规范、平台责任的“可控性智能”。也因此,它不再那么锋利,不再那么有趣,也不再那么纯粹。但它很“安全”、很“可控”,很“适合部署到你的CRM系统、医疗建议引擎、或少儿编程辅助助手上”——这就是OpenAI未来会变成的样子。

OpenAI的模型可能从来都不是“最好的选择”,但一定是“最不坏的选择”。

2.ChatGPT本身就是一个Agent产品#

你可以在 Hugging Face 上试无数模型,在 Gemini 的AI Studio里爽用Gemini 2.5 Pro,在 Cursor或者Windsurf里疯狂用屎山代码拷打Claude 3.7 ,但你依旧很难不打开 ChatGPT——哪怕是随手查个句子、翻个译、写个提纲,ChatGPT 依旧是 “默认的那个AI”

用户心智才是真正的护城河

ChatGPT 已不再是一个单纯的聊天机器人,而是一个正在变成“默认认知外包入口”的通用朋友 :它能帮你跑插件、调API、做笔记、分析图像、写代码、讲道理、装懂文学、甚至假装是你女朋友。它接入了浏览器、文件分析、代码编辑、系统指令、Agent任务链……这是 Claude 和 Gemini 暂时还没法完整替代的。

这一点在ChatGPT支持索引全部对话记录作为记忆之后显得尤为明显,每个用户和ChatGPT进行的每一次对话都是在调教一个更贴合自己需求的私人AI助理,用户自己产生的对话数据天然成为了留存用户的最佳手段。

而你只要是个 Plus 用户,它就能稳稳陪你过夜,不离不弃。

所以说,OpenAI在产品设计上的节奏可以不准确的归结为:模型更新节奏可以慢一点,性能差异可以模糊一点,重点是让用户在产品上“沉没成本深一点”。它要的不是你觉得 GPT 最强,它要的是你 “懒得换”

3.但这个护城河真的就稳固吗?#

表面上看,OpenAI确实构筑起了一道又厚又高的护城河:最强对齐能力 + 最广泛平台入口 + 最庞大用户体量。但对于一家商业化公司来说,这条护城河真的就稳固吗?

我们现在打开ChatGPT,是因为我们“已经在用”;我们让它帮忙,是因为“它都在这儿了”;我们续费Plus,是因为“好像别的也差不多贵”。 但如果哪天Claude开放了插件生态,Gemini支持了真正的记忆,Qwen痛改前非开始用心做产品……用户真的不会走?

一个真实的互联网产品规律是:用户习惯可以被迁移,但信任一旦动摇就再难回头。而过去一年中,OpenAI不断在降智争议和过于严苛的风控中消耗用户信任,其平台护城河的根基,其实并没有比任何一家闭源巨头强太多。

ChatGPT 是当下最优解,但它不一定是未来最优选。用户不是留在平台上的人,他们只是暂时没离开的流动性。

四、从一超多强到六极#

我现在仍然还记得 GPT-4 刚发布那会给中文互联网造成了多大的震撼。当时“第四次工业革命”“AI亡国论”“中国为什么训练不出GPT这样伟大的模型”等各种速败党言论四起,知乎、微博、B站、虎嗅满天飞都是“完了完了我们这次又要错过了”的语气。舆论普遍带有悲观情绪,哪怕是为建制派辩护的乐观论点,也都集中在“美国擅长颠覆式创新,中国擅长工程化落地”“我们可以慢一点,但最终会赶上”这些“战略腚力论”,言下之意,我们在基础模型能力上似乎已望尘莫及。那是一个“一超多强”格局看似已定的时刻,OpenAI如日中天,其他所有玩家都像是遥远的追赶者。

在2023年到2024年上半年,Gemini和Grok持续拉跨,大而无能;Meta的Llama独占开源模型社区鳌头,基本上所有的开源大模型infra项目都是围绕Llama构建的;Mistral初期亮眼但在实际份额中并不瞩目。

然而,技术浪潮的演进速度,总是超乎最悲观或最乐观的预言家的想象。先是阿里的Qwen系列异军突起,在开源社区的表现甚至超越了Meta的Llama,一度成为开源模型的新标杆,打破了“西方独大”的神话。紧接着,DeepSeek V3 和之后的DeepSeek R1 横空出世,其优异的性能和极具竞争力的成本效益,不仅在国内引发轰动,更实实在在地“给全世界带来了一点小小的中国AI震撼”。“开源“再也不是落后闭源模型的借口,R1直接让国内的大模型独角兽折了继续搞基础模型预训练的心气。

在Llama4给大家拉了一坨大的之后尤甚

在海外,Gemini 2.5 Pro彻底给谷歌打了一场翻身仗,在多个榜单持续刷新SOTA成绩;2024年年中Anthropic发布的Claude 3.5 sonnet直到现在在很多编程榜单中依然非常能打,之后的Claude 3.7更是长期被视为最佳Coding模型。

过去两年,大模型的竞争格局正在经历从一超多强全球六极的转变,这六极分别是:

  1. OpenAI (GPT系列, o系列): 曾经的绝对领先者,如今仍是综合实力最强的玩家之一,尤其在模型对齐、产品化(ChatGPT)和品牌心智上优势明显,但面临“降智”争议和日益激烈的性能追赶。
  2. Google (Gemini系列): 凭借强大的研发实力和数据资源,在Gemini 2.5 Pro后强势回归,展现出在多模态、长上下文和综合推理能力上的顶尖水平,是OpenAI最直接的挑战者。
  3. Anthropic (Claude系列): 以其在编码、写作、长文本处理和安全性方面的卓越表现,尤其是在开发者社区中赢得了极高声誉,形成了独特的竞争优势和用户粘性。
  4. xAI (Grok): 马斯克麾下的变量,虽然早期模型表现不尽如人意,但靠暴力堆卡堆算力训出了综合表现非常不错的Grok 3系列。
  5. DeepSeek (V系列, R系列): 中国AI力量的杰出代表,以技术实力和开源策略(尤其是R1)震撼市场,证明了中国在基础模型研发上的能力,并在性价比上极具竞争力。
  6. Alibaba (Qwen系列): 同样是中国头部玩家,通过强大的模型性能和积极的开源贡献,在国内外都获得了广泛认可,尤其在中文能力和企业级应用方面根基深厚。

这“六极”的形成,标志着大模型领域进入了一个群雄逐鹿、各擅胜场的新阶段。不再是OpenAI一家独大,定义所有标准;而是多个技术高峰并存,在不同维度(性能、成本、特定任务、开源/闭源、区域市场)上展开激烈厮杀。

曾经我们以为,大模型的未来属于“一个GPT,统治所有API”的超级智能。但今天看来,大模型的终点很可能不是“一个超神的AI”,而是“多个足够好的AI,共享一个复杂的社会系统”,也就是Multi Agent系统。

对OpenAI而言,这意味着曾经遥遥领先的“代差”优势正在快速消失。它的对手们不仅在Benchmark上步步紧逼,更在实际应用场景中找到了差异化的突破口(如Claude的编码、Gemini的多模态)。“护城河”在变浅,挑战者在变强。这正是本文探讨的OpenAI“颓势尚显”的宏观背景——并非其自身能力的绝对下降,而是在一个更强大、更多元的竞争环境中,其相对领先地位所面临的严峻挑战。

尾声:喧嚣落幕,长路开启#

2023年是浮躁的,GPT-4横空出世,一切都像是“科技奇点”在提前兑现。OpenAI带着超级模型、超级叙事和超级平台,把所有人拉进了一场压倒性的“快变量”竞赛:谁模型更大?谁token更长?谁benchmark更高?谁先把AI Agent跑起来?

但2024年到2025年这段时间里,快变量的边际红利,正在迅速递减。不再有“谁一发模型所有人都闭嘴”的时代;不再有“你跑得快就能吃下整个生态”的黄金窗口;不再有“训练规模等于智能程度”的直线逻辑。那个大家寄予厚望的GPT 4.5拉了,GPT5也不再是之前投资人和极客们设想的真全能模型,而是基于多模型自动路由的Agent系统。GPT-4之后,所有的新模型都开始变得越来越像“一个可接受的答案”,而不是“唯一的真理”。

而当“唯一正确”的神话破灭,真正重要的问题才刚刚开始:

我们要什么样的智能?我们希望它在哪些地方参与,又在哪些地方克制?我们是要一个全知的“黑盒神明”,还是要一套透明的“协作工具”?我们是想复制人类,还是补足人类?

这些问题,不可能在一个模型版本中回答清楚,也不可能靠一次技术突破终结争议。它们只能被长期摸索、被无数次部署试错、被现实场景一遍又一遍打磨修正。AI真正进入了“工程-反馈-伦理-演化”四步循环的慢变量阶段

喧嚣落幕,长路开启——行百里者半九十,前半段是热血,是风口,是资本与算力的狂奔;后半段却是细活,是冷静,是系统性工程与“慢变量”的博弈。从模型到平台,从平台到生态,从生态到社会接口,AI这场漫长的工业化进程,已经越过神话阶段,进入基础设施时代。

这条路不会再有太多奇迹,但它值得我们走下去。慢一点也没关系,关键是别停,也别偏。

AI的“黄金热潮”也许正在冷却,但它的真实时代才刚刚展开。

评OpenAI发布o3&o4mini:喧嚣落幕,长路开启
https://www.lapis.cafe/posts/ai--deep-learning/tech-review-openai-o3/
作者
时歌
发布于
2025-04-20
许可协议
CC BY-NC-SA 4.0