连线杂志：OpenAI 发布代号为 Strawberry 的新型 AI 模型，能够逐步解决难题

ChatGPT 的开发者透露了官方称为 OpenAI o1 模型的细节，这表明人工智能的进步需要的不只是规模的扩大。

OpenAI 在去年推出 GPT-4 时，通过将其模型的规模扩大到令人眼花缭乱的程度，在人工智能领域取得了重大突破。该公司今天宣布了一项新的进展，标志着其研究方法的转变——他们开发了一个能够逻辑地“推理”许多难题的模型，它比现有的 AI 模型聪明得多，而且没有进行大规模的扩容。

这个名为 OpenAI o1 的新模型可以解决现有 AI 模型（包括 OpenAI 目前最强大的模型 GPT-4o）都无法解决的问题。它不会像大型语言模型通常那样一步得出答案，而是像人类一样，在得出正确结果之前，会先对问题进行推理，并有效地进行“思考”。

“我们认为这是这些模型的新范式，”OpenAI 首席技术官 Mira Murati 告诉 WIRED。“它更擅长处理非常复杂的推理任务。”

该公司表示，这款新模型在 OpenAI 内部代号为 Strawberry，它不是 GPT-4o 的继任者，而是对其的补充。

Murati 说，OpenAI 目前正在构建其下一个主模型 GPT-5，该模型将比其前身大得多。虽然该公司仍然相信规模的扩大将有助于从 AI 中挖掘出新的能力，但 GPT-5 也很可能包含今天推出的推理技术。“现在存在两种范式，”Murati 说。“一种是规模化范式，另一种是这种新的范式。我们预计会将它们结合起来。”

大型语言模型通常会从庞大的神经网络中提取答案，这些神经网络被输入了大量的训练数据。它们可以展现出非凡的语言和逻辑能力，但传统上却难以解决一些看似简单的推理问题，比如基本的数学题。

Murati 表示，OpenAI o1 使用强化学习来改进其推理过程，这种学习方法会在模型给出正确答案时给予正面反馈，在给出错误答案时给予负面反馈。“该模型会磨练自己的思维，并微调它用来得出答案的策略，”她说。强化学习已经使计算机能够以超人的技能玩游戏，并完成设计计算机芯片等有用的任务。这项技术也是将大型语言模型变成有用且表现良好的聊天机器人的关键因素。

OpenAI 的研究副总裁 Mark Chen 向 WIRED 演示了这个新模型，并用它解决了一些其先前模型 GPT-4o 无法解决的问题。这些问题包括一个高级化学问题和以下令人费脑的数学难题：“一位公主的年龄与王子在公主年龄是他们现在年龄总和的一半时的两倍时的年龄相同。王子和公主的年龄是多少？”（正确答案是王子 30 岁，公主 40 岁）。

Chen 说：“与传统的 LLM 不同，这个（新）模型正在学习自己思考，而不是试图模仿人类的思考方式。”

OpenAI 表示，其新模型在许多问题集上的表现都明显更好，包括那些专注于编码、数学、物理、生物和化学的问题集。根据该公司的数据，在美国数学邀请赛（AIME，一项针对数学学生的测试）中，GPT-4o 平均解决了 12% 的问题，而 o1 则答对了 83% 的问题。

新模型比 GPT-4o 慢，OpenAI 表示它并不总是表现更好——部分原因是，与 GPT-4o 不同，它无法搜索网络，而且它不是多模态的，这意味着它无法解析图像或音频。

改进大型语言模型的推理能力在一段时间内一直是研究界的热门话题。事实上，竞争对手也在进行类似的研究。今年 7 月，谷歌宣布了 AlphaProof，这是一个将语言模型与强化学习相结合来解决难题的项目。

AlphaProof 能够通过查看正确答案来学习如何推理数学问题。扩展这种学习方式的一个关键挑战是，模型可能遇到的所有问题并非都有正确答案。Chen 表示，OpenAI 已经成功地构建了一个更加通用的推理系统。“我确实认为我们在这方面取得了一些突破；我认为这是我们的优势所在，”Chen 说。“它实际上非常擅长跨所有领域的推理。”

斯坦福大学教授 Noah Goodman 发表过关于提高大型语言模型推理能力的论文，他表示，更通用的训练的关键可能在于使用“精心设计的语言模型提示和手工制作的数据”进行训练。他还补充说，能够始终如一地用速度换取更高的准确性将是一项“不错的进步”。

麻省理工学院助理教授 Yoon Kim 表示，目前大型语言模型如何解决问题仍然有些神秘，即使它们执行的是逐步推理，也可能与人类智能存在关键差异。随着这项技术的应用越来越广泛，这一点可能至关重要。“这些系统可能会做出影响许多人的决策，”他说。“更大的问题是，我们是否需要对计算模型如何做出决策有信心？”

OpenAI 今天推出的技术也可能有助于确保 AI 模型的良好行为。Murati 说，新模型已经证明自己更擅长通过推理其行为的结果来避免产生令人不快或可能造成伤害的输出。“如果你想想如何教育孩子，他们一旦能够推理出自己为什么要做某件事，就能更好地适应某些规范、行为和价值观，”她说。

华盛顿大学名誉教授、著名人工智能专家 Oren Etzioni 表示，“让大型语言模型能够进行多步骤问题解决、使用工具和解决复杂问题至关重要。”他补充说，“单纯扩大规模无法实现这一点。”然而，Etzioni 表示，未来还会有更多挑战。“即使推理问题得到解决，我们仍然会面临幻觉和事实性的挑战。”

OpenAI 的 Chen 表示，该公司开发的新的推理方法表明，推进人工智能并不需要花费天文数字的计算能力。“这种范式令人兴奋的一点是，我们相信它将使我们能够以更低的成本提供智能，”他说，“我认为这确实是公司核心使命。”