OpenAI在周三(4/16)发布了全新的o3推理模型与轻量的o4-mini推理模型,这两个新模型最大的特点是具备视觉推理与图像操作能力,将图像纳入推论过程并对其进行多步骤的视觉分析,可自动对图像进行缩放、旋转及剪裁等操作。
o系列是OpenAI的推理模型,强调具备关联性思考能力,但它们在回答之前会思考更长的时间,在回复使用之前采用了很长的内部思考链。OpenAI是在去年9月正式发布o1,也有轻量级的o1-mini与专业级的o1-pro;OpenAI跳过了o2型号,并在今年2月率先发布o3 mini;于本周同时发布o3与o4 mini。
o3与o4 mini最令人惊艳的应该是它们的图像思考及推理能力,这两个模型可借由各种工具来转换用户所上传的图像,让这些图像得以裁剪、放大与旋转,还能执行其他简单的图像处理技术。
例如当用户上传了一张今天在海边拍的照片,远方的海面上有许多船只,他将照片上传并询问最大艘的船只叫什么名字,以及它之后会停靠在哪个港口。由于船只太远,o3只好先将照片放大,识别出用户的位置,找到最大艘的船,识别船只的名字,再上网搜索以给出答案,但总计花了好几分钟。
OpenAI表示,用户可以上传白板的照片、教科书图表或手绘的草图,就算是图像模糊、颠倒或品质不佳,模型还是可以通过工具动态地处理图像,当作它推理的一部分。
图片来源/OpenAI
除了图像推理能力之外,OpenAI o3担当该公司目前最强大的推理模型,不管是在程序代码、数学、科学与视觉感知上都有所进步,强调适合需要多方面分析的复杂查询,根据外部专家的评估,它在困难的现实任务上所犯的重大错误比OpenAI o1少了20%。
OpenAI比较了o3、o4-mini、o1与o3-mini在解决数学问题、高端科学问题、多模态推理能力、程序代码任务,以及指令遵循上的表现,皆可发现o3与o4-mini明显优于前一代的产品。
o3每输入100万个Token的价格为10美元,输出100万个Token的价格为40美元;o4-mini每输入及输出100万个Token的价格,则分别是1.1美元及4.4美元。