OpenAI o1 团队有关 o1 模型问答汇总

X账号 OpenAI Developers 在太平洋时间13日上午 10 点到 11 点举办了一场面向开发者的“你问我答”活动，用户在 X 贴文下方留言提问，OpenAI o1 团队成员逐条回答。本文对问答进行了汇总，揭示了更多有关 o1 模型的秘密。

模型名称和推理范式

OpenAI o1的命名代表了一种新的AI能力水平；计数器重置为1
“Preview”表示这是完整模型的早期版本
“Mini”表示它是o1模型的较小版本，优化了速度
“o”代表OpenAI
o1不是一个“系统”；它是一个训练生成长推理链的模型，然后再给出最终答案
o1的图标象征着一个拥有非凡能力的外星人

o1模型的大小和性能

o1-mini比o1-preview小得多且更快，因此未来将提供给免费用户
o1-preview是o1模型的早期检查点，既不大也不小
o1-mini在STEM任务中表现更好，但世界知识有限
与o1-preview相比，o1-mini在某些任务上表现更好，尤其是在代码相关任务中
o1的输入Token计算方式与GPT-4o相同，使用相同的分词器
o1-mini可以比o1-preview探索更多的思维链

输入Token上下文和模型能力

更大的输入上下文即将为o1模型提供
o1模型能够处理更长、更开放的任务，较少需要像GPT-4o那样进行输入分块
o1可以在给出答案之前生成长推理链，这不同于之前的模型
当前无法在链式推理（CoT）过程中暂停推理以添加更多上下文，但正在为未来模型探索此功能

工具、功能和即将推出的特性

o1-preview目前还不使用工具，但计划支持函数调用、代码解释器和浏览功能
工具支持、结构化输出和系统提示将在未来更新中添加
用户最终可能会获得对思考时间和Token限制的控制权
正在计划启用流式传输并在API中考虑推理进展
多模态能力内置于o1中，旨在在诸如MMMU等任务中达到最先进的表现

链式推理 (CoT)

o1在推理过程中生成隐藏的推理链
目前没有计划向API用户或ChatGPT公开CoT Token
CoT Token被总结，但无法保证其完全

忠实于实际推理过程

提示词中的指令可以影响模型如何思考问题
使用强化学习 (RL) 改进了o1的链式推理性能，GPT-4o无法仅通过提示词匹配其CoT表现
思维阶段看起来较慢，因为它总结了思维过程，但生成答案的速度通常更快

API和使用限制

o1-mini对ChatGPT Plus用户的每周限制为50个提示词,o1 preview 每周 30 条，将尽快增加使用配额。
在ChatGPT中，所有提示词计算方式相同
API访问的更多层次和更高的速率限制将逐步推出
API中提示词缓存功能备受期待，但尚无时间表

定价、微调和扩展

o1模型的定价预计每1-2年将遵循价格下降趋势
当速率限制增加时，将支持批量API定价
微调已在计划中，但时间表尚不确定
o1的扩展因研究和工程人才的瓶颈而受限
推理计算的新扩展范式可能会为未来几代模型带来重大收益
逆向扩展问题目前并不突出，但个人写作提示中，o1-preview的表现仅略优于GPT-4o（甚至略逊）

模型开发和研究见解

o1通过强化学习训练以实现推理性能
该模型在诗歌等横向任务中展现了创造性思维和强大的表现
o1的哲学推理和泛化能力（例如破译密码）令人印象深刻
研究人员使用o1创建了一个GitHub机器人，该机器人可以提醒正确的CODEOWNERS进行代码审查
在内部测试中，o1通过对自己提出困难问题来评估其能力
正在添加广泛的世界领域知识，未来版本会有所改进
计划为未来迭代的o1-mini提供更新的数据（当前截至2023年10月）

提示技巧和最佳实践

o1受益于提供边界情况或推理风格的提示技巧
与早期模型相比，o1模型对提示中的推理线索更为敏感
在检索增强生成（RAG）中提供相关的上下文可以改善性能；不相关的部分可能会削弱推理

一般反馈和未来改进

由于处于早期测试阶段，o1-preview的速率限制较低，但将会增加
正在积极努力改进延迟和推理时间

模型的卓越能力

o1可以思考诸如“生命是什么？”等哲学问题
研究人员发现o1在处理复杂任务和从有限指令中进行泛化方面表现令人印象深刻
o1的创造性推理能力，例如通过自我测试来评估其能力，展示了其高水平的解决问题能力

访谈推文地址：

We’re hosting an AMA for developers from 10–11 AM PT today. Reply to this thread with any questions and the OpenAI o1 team will answer as many as they can.
— OpenAI Developers (@OpenAIDevs) September 13, 2024

最后，OpenAI 慷慨的宣布，由于大家对于 o1 模型的探索快速的消耗了使用次数，所以对所有 ChatGPT Plus 以及团队用户使用次数进行重置，重新给予满配额。

There has been a lot of enthusiasm to try OpenAI o1-preview and o1-mini, and some users hit their rate limits quickly.

We reset weekly rate limits for all Plus and Team users so that you can keep experimenting with o1.
— OpenAI (@OpenAI) September 13, 2024