OpenAI 推出其最新“推理”模型 o3-mini

OpenAI 于周五发布了其新款 AI 推理模型 o3-mini，这是公司 o 系列推理模型中的最新成员。

OpenAI 在去年 12 月首次预览了 o3-mini，并展示了一个更强大的模型 o3。如今，o3-mini 的发布恰逢 OpenAI 面临一系列挑战，尤其是在与中国公司如 DeepSeek 的竞争中，后者被指控窃取 OpenAI 的知识产权。此外，OpenAI 还在努力与美国政府建立更紧密的关系，并筹备一轮可能创纪录的融资。

o3-mini 被 OpenAI 宣传为既“强大”又“实惠”的模型。

OpenAI 发言人在接受 TechCrunch 采访时表示：“今天的发布标志着我们朝着让先进 AI 更广泛可及迈出了重要一步。”

更高效的推理

与大多数大型语言模型不同，o3-mini 这类推理模型会在给出结果前对自身进行严格的事实核查。这帮助它们避免常见的错误，尽管推理过程稍显缓慢，但因此它们在物理学等领域的表现更为可靠。

o3-mini 专为 STEM（科学、技术、工程、数学）领域的问题进行优化，特别是在编程、数学和科学问题上。OpenAI 声称，o3-mini 与 o1 系列（包括 o1 和 o1-mini）在能力上相当，但运行速度更快、成本更低。

在外部测试中，o3-mini 的答案超过 o1-mini 的表现超过了一半时间，并且在 A/B 测试中，o3-mini 在解决“复杂现实问题”时减少了 39% 的重大错误，同时回答更清晰、速度更快（快约 24%）。

定价与功能

o3-mini 从周五起将在 ChatGPT 中向所有用户开放，但 ChatGPT Plus 和 Team 计划的用户将享有更高的每日查询限制（150 次）。ChatGPT Pro 用户可以无限制访问，o3-mini 将于下周在 ChatGPT Enterprise 和 ChatGPT Edu 用户中推出（ChatGPT Gov 尚未公布）。

付费用户可以在 ChatGPT 的下拉菜单中选择 o3-mini，而免费用户则可以点击或点击聊天栏中的新“Reason”按钮，或让 ChatGPT “重新生成”答案。

此外，o3-mini 也将通过 OpenAI 的 API 提供给选择的开发者，尽管初期不支持图像分析。开发者可以选择不同的“推理强度”（低、中、高），以根据需求平衡速度和精确度。

o3-mini 的定价为每百万缓存输入 token 0.55 美元，每百万输出 token 4.40 美元，相比 o1-mini 便宜 63%，并且在价格上与 DeepSeek 的 R1 推理模型竞争。

在 ChatGPT 中，o3-mini 默认设置为中等推理强度，OpenAI 表示，这提供了“速度与准确性之间的平衡”。付费用户还可以选择“o3-mini-high”以换取更慢的回答，但会获得更高的推理能力。

有限的优势与局限

尽管 o3-mini 在许多方面表现出色，但它并不是 OpenAI 最强大的模型，也并未在每项基准测试中超越 DeepSeek 的 R1 推理模型。

o3-mini 在 AIME 2024（测试模型理解复杂指令的能力）中超越了 R1，但仅在高推理强度下。在编程测试 SWE-bench Verified 中，它也略微超过了 R1（0.1 分），但同样是在高推理强度下。相比之下，在低推理强度下，o3-mini 在 GPQA Diamond 测试（涉及博士级物理、生物学和化学问题）中不及 R1。

然而，o3-mini 以竞争力的低成本和低延迟，能高效处理大量查询。在与 o1 系列的对比中，OpenAI 提到：“在低推理强度下，o3-mini 的表现与 o1-mini 相当；在中等推理强度下，o3-mini 的表现与 o1 相当，且更快。” 只有在高推理强度下，o3-mini 超越了 o1-mini 和 o1。

安全性与改进

OpenAI 表示，o3-mini 在安全性方面与 o1 系列相当，甚至更强。通过“红队”测试和“深思熟虑的对齐”方法，o3-mini 在“安全挑战和越狱评估”中大大超过了 GPT-4o。

o3-mini 为技术领域提供了更高效、更便宜的推理模型，虽然它的表现不完美，但相较于其他模型，它在许多应用场景中提供了更快、更可靠的解决方案。

ChatGPT中文

ChatGPT：全球领先的人工智能

OpenAI 推出其最新“推理”模型 o3-mini

更高效的推理

定价与功能

有限的优势与局限

安全性与改进

ChatGPT：全球领先的人工智能

更高效的推理

定价与功能

有限的优势与局限

安全性与改进

ChatGPT网页入口的操作技巧与建议

ChatGPT 现在会记住并忘记你告诉它的事情

相关推荐