我看有人在吹 GPT-5,我咋觉得恰恰相反。我看完之后的感觉是,这一切都在为 GPT-5 的训练遇阻和发布延后做找补。简单来说,推理模型和非推理模型的融合遇到了困难,但推理模型本身还没有遇到瓶颈。
我们首先要理解 OpenAI 的「计划有变」是怎么个变法,比较重要的信息就在 Sam Altman 前后发的两条推特里。
之前的计划(2月13日)是[1]:
简单来说就是
看上去似乎比较混乱。实际上 OpenAI 的模型现在就是两条路线:
而现在 OpenAI 的计划是[2]:
首先是大家最关心的 GPT-5,出现了自相矛盾的描述。一方面说 GPT-5 会效果更好,另一方面又说整合所有事情比预想的更难。
因为最初 GPT-5 的主要目的是整合推理和非推理两条路线的模型,以及各种模态和工具能力。现在说「整合遇到困难」,实际上就是承认 GPT-5 的训练不及预期。
考虑到大模型行业现在你追我赶的迭代速度,如果真的延期三个月,别家就会迭代出小版本,所以才会补偿性地承诺出「GPT-5 会效果更好」。
同样,由于 GPT-5 短期内拿不出来,或者说 GPT 系列已经遇到了显著的瓶颈(否则去年也不会去折腾推理模型),所以 OpenAI 发现自己模型发布之间的空档期过久(GPT-4.5 已经推出了,虽然成本很高),所以他们需要别的东西来填补中间的空挡,给用户一种他们依然技术领先的感觉。
于是之前不打算发布的 o3 被迫拿了出来,又画了一个 o4-mini 的饼。
o3 的成本目测会持平/高于 o1 pro。换句话说,o3 也许会像 GPT-4.5 一样,成本高到失去实际上的可用性,因为大家都用不起。
一个例证在于,ARC-AGI 去除了 o3-high 的分数,他们将最初 o3-low 的估算从每任务 20 美元提高到每任务 200 美元。推测 o3-high 从每任务 3,000 美元提高到每任务 30,000 美元,由于成本突破了每任务 10,000 美元的限制,o3-high 不再被包括在内[3]。
至于 o4-mini,往好处想,这说明推理模型暂时还没有到上限,依然能有能力突破(至少是测评分数的提升)。
现在 OpenRouter 上出现了一个神秘的匿名模型 Quasar Alpha[4](目前免费可用),OpenRouter 官方称:这是一个提供给社区以收集反馈的“披露受限”模型。它是一个功能强大、用途广泛的模型,支持包括代码生成在内的长上下文任务。该模型的所有提示词和生成内容都会被提供方以及OpenRouter记录。
实际测试的话,Quasar Alpha 会承认自己来自 OpenAI:
而且 Quasar Alpha 有另外几个印象非常深刻的优点,第一是快,第二是上下文长,第三是性能似乎还不错。
实际测试中,Quasar Alpha 往往能提供超过 100 tokens/s 的速度,数倍高于其他模型(考虑到速度往往和模型尺寸、价格强相关,可以推断 Quasar Alpha 也许模型不大,且未来定价不高);按照 OpenRouter 的标注,Quasar Alpha 支持 1M tokens 上下文;一些网友给出的测评分数中,Quasar Alpha 超过了 o3-mini 和 Claude 3.5.
综合以上信息,很多人都在猜 Quasar Alpha 会不会就是 o4-mini,毕竟 OpenAI 目前已经预告的短期之内可能会发布的新模型就剩下 o4-mini 了。
但我个人倒是感觉不太可能,因为 Quasar Alpha 显然不是一个推理模型,更有可能是 GPT 系列。而且不论怎么说,这些和 GPT-5 都没关系,都是在为 GPT-5 的延期找补。
以上。