有关 OpenAI o1 模型的 15 个关键事实

在过去的几个月里，人工智能社区的知名人士对ChatGPT的下一次更新或GPT-5进行了广泛的猜测和警惕。许多人认为，这些更新可能会使我们更接近通用人工智能（AGI），甚至有人声称该模型可能具备博士级别的能力。

终于，就在今天早些时候，OpenAI宣布推出了一个名为OpenAI o1的新模型系列。虽然笔者尚未全面测试这个模型，但早期的评估和基准测试显示，它与GPT-4o有显著的不同，并有明显的改进。

这会是许多人期待的AGI吗？在我看来，我们还没有达到那个水平。然而，许多研究人员，包括现任和前任的OpenAI员工，都认为这可能是实现AGI的关键一步。

他们选择将其命名为 o1，这很耐人寻味。这暗示着这是一个新系列的开端，或许表明OpenAI将其视为迈向AGI之路的起点。

以下是你需要了解的关于 OpenAI o1 的 15 个事实与新特性。

全新的o1系列，在复杂推理上的性能又提升到了一个全新级别，可以说拥有了真正的通用推理能力。

1. 初始发布和目的

OpenAI宣布了o1模型，作为其AI开发的新篇章，重点关注复杂的推理任务。

它被特别设计用于在需要深度认知和问题解决的领域表现出色，如数学、科学和编程。

该模型的结构使其能够更深入地思考问题，区别于早期像GPT-4那样的快速、表面层次的响应。

2. 命名和模型设计

o1模型的发布标志着一个与以前模型不同的新系列的开始。OpenAI决定将模型计数重置为1，并将该系列命名为OpenAI o1，表明一个专注于推理能力的新时代的开启。

o1模型包括o1-Preview，一个全面的推理模型，以及o1-mini，一个更便宜、更快速的替代方案，特别适用于编码任务。

3. 初始能力

o1模型被设计为在复杂问题解决任务中优于以前的模型。

它展示了强大的能力，例如解决了83%的国际数学奥林匹克竞赛（IMO）问题，而GPT-4只解决了13%。

它还在科学和编码方面表现出色，在某些问题解决环境中与博士生相当。

4. 安全性和防破解能力

OpenAI在o1模型中高度重视安全性和一致性。通过新的训练技术，o1能够比以前的模型更有效地推理安全规则。

在测试中，o1对破解尝试表现出更高的抵抗力，在OpenAI最严格的安全测试中得分为84/100，而GPT-4的得分为22/100。

5. 可用性和访问权限

截至发布时，ChatGPT Plus和团队用户可以访问 o1-preview 和 o1-mini，预览版每周可发送30条消息，mini 版每周 50 条。

开发者也可以通过 OpenAI 的 API 使用该模型，但有速率限制。企业和教育用户将很快获得访问权限。

OpenAI 最终将把 o1-mini 版本提供给所有 ChatGPT 免费用户。

6. 推理改进和思维链

通过整合“思维链”推理，该模型学会了逐步解决问题。这种方法大大提高了o1的推理准确性，使其在需要逻辑步骤的领域更加有效。

7. 在竞赛编程和数学中的表现

o1模型在Codeforces中排名第89百分位，在美国数学奥林匹克竞赛（AIME）中进入前500名。它在需要大量推理的任务中表现出色，超越了GPT-4在数学方面的表现，在2024年AIME中得分为74%，而GPT-4仅为12%。

8. 强化学习和效率

该模型对其思维链使用了大规模的强化学习，随着训练时间的增加，其性能得到了提高。它有效地学会了思考并纠正错误，增强了整体推理能力。

9. 编程和奥赛的成功

在2024年的国际信息学奥林匹克竞赛（IOI）中，o1通过解决复杂的编程问题，排名在第49百分位。在竞赛编程评估中，它获得了1807的Elo评分，超过了93%的人类竞争者。

10. 科学和数学领域的人类水平

o1模型在化学、物理和生物学等领域超越了人类专家，成为第一个在GPQA-diamond基准测试中达到这一水平的模型。它在MMLU的57个子类别中有54个得分高于以前的模型。

11. 人类偏好

在直接对比的评估中，人类评估者在数据分析、编码和数学等领域始终更喜欢o1的回答，尽管GPT-4在某些自然语言任务中表现更佳。

12. 安全性和政策整合

“思维链”推理还通过允许模型在上下文中学习安全规则和人类价值观，改进了模型的一致性。这一进步使模型更具稳健性，特别是在超出训练分布的情境中。

13. 高级安全完成率

o1在有害提示类别中显著提高了安全完成率，在挑战性的破解中实现了93.4%的安全完成率，并在暴力不法行为、色情内容和有害行为建议等关键安全指标上优于GPT-4。

14. 隐藏的思维链监控

OpenAI选择对用户隐藏思维链，以防止任何潜在的操纵行为。然而，它利用这个隐藏的思维链来监控和提高模型的安全性，同时仍然为用户提供模型生成的摘要。

15. 未来发展和功能

虽然o1是一个强大的推理任务模型，但目前缺乏网页浏览、文件上传和图像识别等功能，而这些功能在GPT-4等模型中仍然可用。

OpenAI已承诺在未来的更新中添加这些功能，使o1模型在更广泛的任务中更加多才多艺。此外，预计o1系列和其他模型将有进一步的发展。

结语

因此，OpenAI o1 目前可能并不像 GPT4o 那样全能，它不能浏览网页或附加文件。但它在回答复杂任务方面具有更强的能力。

我认为我们回到了起点，但这次我们终于走上了正确的道路，去实现我们曾只在科幻电影中看到的东西。

我们还未完全达到目标，但看到它能如此迅速地改进，并能自行纠正错误，确实是一个令人印象深刻的创造。

最后，为了更好的使用 o1 模型，如何进行提问，OpenAI 给出的最佳方法：

保持提示简单直接：模型擅长理解和响应简短、清晰的指令，而不需要大量的指导。
避免思路链提示：由于这些模型在内部进行推理，因此不需要提示它们“逐步思考”或“解释你的推理”。
使用分隔符来提高清晰度： 使用三重引号、XML 标签或章节标题等分隔符来清楚地指示输入的不同部分，帮助模型适当地解释不同的部分。
限制检索增强生成 (RAG) 中的附加上下文： 提供附加上下文或文档时，仅包含最相关的信息，以防止模型过度复杂化其响应。

推·荐·文·章

OpenAI o1 团队有关 o1 模型问答汇总

GPT-4o mini 模型微调步骤及使用方法

国内信用卡结合 Google Pay 付费 OpenAI API 方法