OpenAI发布o3与o4-mini,视觉推理新突破,开源编程神器并曝史上最大收购
更新于:2025-04-17 11:59:10

OpenAI在人工智能领域再次迈出重要一步,于近日凌晨震撼发布了两个全新的视觉推理模型——OpenAI o3与o4-mini。这两款模型隶属于OpenAI的o系列,最引人注目的特点是它们能够首次将图像融入思维链推理过程中,标志着OpenAI在多模态推理技术上的重大突破。

o3与o4-mini在功能上各有侧重。o3被定位为目前最强大的推理模型,而o4-mini则是一个经过优化、体积更小、专为快速且具备成本效益的推理任务而设计的模型。它们不仅能解读和分析图像,还能自主调用工具,在极短时间内生成精准的答案。

为了最大化这些模型的推理能力,OpenAI还开源了一款轻量级的编程智能体Agent Codex CLI,允许用户在终端直接运行。这款智能体的发布迅速获得了市场的热烈响应,发布后不到七个小时,其Star数已突破5500。

OpenAI的这次发布不仅限于技术层面的革新,在商业领域同样掀起了波澜。据外媒报道,OpenAI正洽谈以高达30亿美元的价格收购AI辅助编程工具Windsurf(前身为Codeium)。若交易成功,这将成为OpenAI有史以来规模最大的一笔收购,进一步巩固其在AI编程领域的地位。

随着新模型的发布,OpenAI也调整了用户访问权限。从即日起,ChatGPT Plus、Pro和Team用户可以率先体验o3、o4-mini和o4-mini-high,这些模型将逐步取代原有的o1、o3-mini和o3-mini-high。企业和教育用户将在一周后获得访问权限,而免费用户则可以在提交查询前选择“思考”功能来试用o4-mini。

新模型的核心优势在于其强大的图像处理能力。无论是白板照片、教科书图表还是手绘草图,o3和o4-mini都能轻松解读,并在必要时借助工具对图像进行旋转、缩放或变换等操作。这使得它们能够处理各种复杂的视觉推理任务,如分析图表数据、识别图像中的物体等。

在实际应用中,o3和o4-mini展现出了卓越的性能。例如,在面对一道数学难题时,o3可以在不使用搜索引擎的情况下给出正确答案,而之前的模型则无法做到。在处理收集和分析区域旅行数据、经济统计数据和酒店入住率等复杂任务时,o3同样表现出了更高的准确性和详尽性。

在成本和性能方面,OpenAI预计o3和o4-mini将比前代模型更加智能且经济高效。在一系列人类考试和机器学习基准测试中,新模型在所有测试的多模态任务上都显著优于前代。特别是在视觉推理方面,新模型在多个基准测试上取得了显著提升,准确率高达97.5%。

尽管新模型在多个方面表现出色,但它们仍存在一些局限性。例如,在推理链过程中可能会执行冗余或不必要的步骤,导致思维链过长;在某些情况下,模型可能会犯基本的感知错误,导致最终答案不准确;模型的可靠性也有待提高,因为在多次尝试解决问题时可能会采用不同的视觉推理过程,其中一些可能导致错误结果。

为了应对这些挑战,OpenAI正在不断优化模型,并开发新的系统级缓解措施以提高模型的可靠性和安全性。同时,OpenAI还启动了100万美元的倡议,以支持使用Codex CLI和OpenAI模型的工程项目,推动人工智能技术的进一步发展。