OpenAI-o1真的会思考吗

在OpenAI的眼中实现通用人工智能大致要经历5个阶段对话(conversation)推理(reasoning)代理(agent)创新(innovation)组织(organization)OpenAI的o1模型已经达到了推理这一阶段相信第三阶段也指日可待在它到达第四阶段—创新—之前个人认为还需要达到直觉这个阶段

OpenAI在上周推出了最新的模型o1-preview名字的含义是Orion猎户座一代有人说计数器重置为1因此很可能不会有GPT-5o1将开启一个全新的时代
很多人对o1模型能力进行了解读也有大量的新奇的应用如雨后春笋一般涌现出来总得来说o1是思维链(Chain of Thought, COT)的集大成者它很可能推动LLM新一轮的范式改变侧重点从训练到推理转移然后以推理时间的增长来继续scaling law但是它真的会思考

o1模型本质上就是把思维链内化

o1本质上就是把思维链COT内化之前需要依赖人工写COT来指导LLM接近正确答案现在OpenAI的把COT隐匿地训练到了o1的内部就像AlphaGo下棋形成了巨大的树形搜索空间相当于一条条COT构成的空间这里COT的具体步骤的组会空间是巨大的人写的COT未必是最优的问题越复杂这个树的搜索空间就越大搜索复杂度就越高找到正确答案涉及到的COT步聚越多
这一突破意味着复杂的提示词工程(Prompt Engineering)可能会逐渐淡出舞台未来,用户无需再构造繁琐的提示词,AI系统将能够自主生成最适合的思维过程,这无疑是向着更高度智能化迈进的一大步

从训练到推理的转变

简单的来说OpenAI o1 系列模型在复杂推理上的性能提升模式与传统 LLM 预训练式的性能提升不同主要通过强化学习的方式让模型不断完善思考过程包括对不同策略进行尝试认识到错误等这个过程是推理阶段完成的
因此我们应该有两种方式来增加能力在训练期间以及在推理期间这实际上对Nvidia的竞争对手如Groq和SambaNova Systems来说是一个利好信号因为他们有更多机会在推理计算方面竞争而在训练计算方面几乎没有机会竞争

o1会思考吗

人类的物理数学大师一定程度上是不是因为他们计算能力强解决具体问题的逻辑能力强而是他们的强大的直觉物理学中有很多奠基性的理论都是物理学家先有了答案然后再回头去证明和推理心中的那个答案他们的答案是如何来的呢这就是大师们的直觉

A mathematician is a person who can find analogies between theorems; a better mathematician is one who can see analogies between proofs and the best mathematician can notice analogies between theories. One can imagine that the ultimate mathematician is one who can see analogies between analogies.
-—- Stefan Banach

LLM的预训练所得的是对一种简单规则的直觉以前我们通过大量的数据让LLM抽象出了数据背后最一般的映射也就是规则比如语言里的语法一些简单的数学规则基于统计意义上的但是很多复杂问题是多个简单规则的嵌套这时候LLM就力不从心了因为它无法通过死记硬背的方法来学会这些规则组合现在我们有o1模型可以借助COT来解决这些问题这时COT有点像人类的逻辑思考或者Reasoning近一步想如果通过大量的COT作为数据是不是可以训练出对复杂问题的直觉这个时候的LLM是不是就更像一个科学家那样思考了