ChatGPT资讯站 chatgpt知识 OpenAI 推出其最新“推理”模型 o3-mini

OpenAI 推出其最新“推理”模型 o3-mini

OpenAI 推出其最新“推理”模型 o3-mini缩略图

OpenAI 于周五发布了其新款 AI 推理模型 o3-mini,这是公司 o 系列推理模型中的最新成员。

OpenAI 在去年 12 月首次预览了 o3-mini,并展示了一个更强大的模型 o3。如今,o3-mini 的发布恰逢 OpenAI 面临一系列挑战,尤其是在与中国公司如 DeepSeek 的竞争中,后者被指控窃取 OpenAI 的知识产权。此外,OpenAI 还在努力与美国政府建立更紧密的关系,并筹备一轮可能创纪录的融资。

o3-mini 被 OpenAI 宣传为既“强大”又“实惠”的模型。

OpenAI 发言人在接受 TechCrunch 采访时表示:“今天的发布标志着我们朝着让先进 AI 更广泛可及迈出了重要一步。”

更高效的推理

与大多数大型语言模型不同,o3-mini 这类推理模型会在给出结果前对自身进行严格的事实核查。这帮助它们避免常见的错误,尽管推理过程稍显缓慢,但因此它们在物理学等领域的表现更为可靠。

o3-mini 专为 STEM(科学、技术、工程、数学)领域的问题进行优化,特别是在编程、数学和科学问题上。OpenAI 声称,o3-mini 与 o1 系列(包括 o1 和 o1-mini)在能力上相当,但运行速度更快、成本更低。

在外部测试中,o3-mini 的答案超过 o1-mini 的表现超过了一半时间,并且在 A/B 测试中,o3-mini 在解决“复杂现实问题”时减少了 39% 的重大错误,同时回答更清晰、速度更快(快约 24%)。

定价与功能

o3-mini 从周五起将在 ChatGPT 中向所有用户开放,但 ChatGPT Plus 和 Team 计划的用户将享有更高的每日查询限制(150 次)。ChatGPT Pro 用户可以无限制访问,o3-mini 将于下周在 ChatGPT Enterprise 和 ChatGPT Edu 用户中推出(ChatGPT Gov 尚未公布)。

付费用户可以在 ChatGPT 的下拉菜单中选择 o3-mini,而免费用户则可以点击或点击聊天栏中的新“Reason”按钮,或让 ChatGPT “重新生成”答案。

此外,o3-mini 也将通过 OpenAI 的 API 提供给选择的开发者,尽管初期不支持图像分析。开发者可以选择不同的“推理强度”(低、中、高),以根据需求平衡速度和精确度。

o3-mini 的定价为每百万缓存输入 token 0.55 美元,每百万输出 token 4.40 美元,相比 o1-mini 便宜 63%,并且在价格上与 DeepSeek 的 R1 推理模型竞争。

在 ChatGPT 中,o3-mini 默认设置为中等推理强度,OpenAI 表示,这提供了“速度与准确性之间的平衡”。付费用户还可以选择“o3-mini-high”以换取更慢的回答,但会获得更高的推理能力。

有限的优势与局限

尽管 o3-mini 在许多方面表现出色,但它并不是 OpenAI 最强大的模型,也并未在每项基准测试中超越 DeepSeek 的 R1 推理模型。

o3-mini 在 AIME 2024(测试模型理解复杂指令的能力)中超越了 R1,但仅在高推理强度下。在编程测试 SWE-bench Verified 中,它也略微超过了 R1(0.1 分),但同样是在高推理强度下。相比之下,在低推理强度下,o3-mini 在 GPQA Diamond 测试(涉及博士级物理、生物学和化学问题)中不及 R1。

然而,o3-mini 以竞争力的低成本和低延迟,能高效处理大量查询。在与 o1 系列的对比中,OpenAI 提到:“在低推理强度下,o3-mini 的表现与 o1-mini 相当;在中等推理强度下,o3-mini 的表现与 o1 相当,且更快。” 只有在高推理强度下,o3-mini 超越了 o1-mini 和 o1。

安全性与改进

OpenAI 表示,o3-mini 在安全性方面与 o1 系列相当,甚至更强。通过“红队”测试和“深思熟虑的对齐”方法,o3-mini 在“安全挑战和越狱评估”中大大超过了 GPT-4o。

o3-mini 为技术领域提供了更高效、更便宜的推理模型,虽然它的表现不完美,但相较于其他模型,它在许多应用场景中提供了更快、更可靠的解决方案。

本文来自网络,不代表ChatGPT资讯站立场,转载请注明出处:https://gpt4.nbping.com/chatgptzs/2058.html
返回顶部