Andre Karpathy近日在X平台上也对R1作了评价。评价本身不重要,重要的是他引申出了一个更加深刻的观点,即AI的自我进化可能远超我们想象,这个观点让人细思极恐。
他提出合成数据和强化学习是等价的。在强化学习的试错过程中,每一次“试验”本质上都是模型生成的合成数据,而它随后根据奖励函数来进行学习。反过来说,当你对合成数据进行筛选和排名时,这个过程实际上就是一个0-1奖励函数。可见,数据很大程度上是算力下游的产物。
不论是人类儿童的学习中还是在深度学习中,主要存在两种学习模式:
- 模仿学习(watch and repeat),即通过观察别人来学习,包括预训练和监督微调;
- 试错学习(trial and error),即强化学习。
以Alpha Go为例,第一步是通过模仿顶级人类棋手的对弈来学习,第二步则是通过强化学习来优化棋力,从而超越人类的水平。深度学习所有令人惊叹的突破,几乎都来自第二种学习,从简单的打砖块游戏,到AlphaGo战胜李世石,甚至是o1和R1的推理,这些思考路径都是在试错的过程中涌现出来的。这个能力无法通过模仿学习来获得,因为人类的认知有限,经常无法准确标注出解决问题的策略。因此只有在强化学习的过程中,才能通过不断试错和统计经验的方式,发现最有效的测略。
24年底的大会上Ilya也发表了相似的观点,他说人类现阶段所有的互联网的数据已经被全部用于训练,AI无法再从人类产生的数据中获得新知,它必须合成自有数据。两位AI界的重量级人物同时强调强化学习的重要性,仔细想想,甚至有一点恐怖。因为这意味着,AI要继续提升,将不能再模仿人类,而是开启自主训练。这个训练是不可控的,因为它不受现有人类认知水平的束缚。
其实人类远非智慧物种,贪嗔痴慢疑,五毒俱全;人类感知也很有限,只能看到可见光,只能听到20-20000Hz的声音,受制于24小时昼夜节律,甚至只能感知三维空间。想象一下,人工智能去除了所有这些限制后,会以怎样的方式理解世界的本来面目?
o1和R1的惊艳表现也许在暗示我们,AI自主学习的能力比我们想象的要强很多,这就能解释众多AI界大佬们纷纷投身于AI医疗,它真的能发现治疗癌症的方法,而且大概率是一种我们无法想象的方法。它很有可能会在极短的时间内各方面超越人类,并且以无法控制的速度离我们远去,这是就是奇点。