强化学习和人工智能的奇点

Andre Karpathy近日在X平台上也对R1作了评价评价本身不重要重要的是他引申出了一个更加深刻的观点即AI的自我进化可能远超我们想象这个观点让人细思极恐

他提出合成数据和强化学习是等价的在强化学习的试错过程中每一次试验本质上都是模型生成的合成数据而它随后根据奖励函数来进行学习反过来说当你对合成数据进行筛选和排名时这个过程实际上就是一个0-1奖励函数可见数据很大程度上是算力下游的产物

不论是人类儿童的学习中还是在深度学习中主要存在两种学习模式

  1. 模仿学习(watch and repeat)即通过观察别人来学习包括预训练和监督微调
  2. 试错学习(trial and error)即强化学习

以Alpha Go为例第一步是通过模仿顶级人类棋手的对弈来学习第二步则是通过强化学习来优化棋力从而超越人类的水平深度学习所有令人惊叹的突破几乎都来自第二种学习从简单的打砖块游戏到AlphaGo战胜李世石甚至是o1和R1的推理这些思考路径都是在试错的过程中涌现出来的这个能力无法通过模仿学习来获得因为人类的认知有限经常无法准确标注出解决问题的策略因此只有在强化学习的过程中才能通过不断试错和统计经验的方式发现最有效的测略

24年底的大会上Ilya也发表了相似的观点他说人类现阶段所有的互联网的数据已经被全部用于训练AI无法再从人类产生的数据中获得新知它必须合成自有数据两位AI界的重量级人物同时强调强化学习的重要性仔细想想甚至有一点恐怖因为这意味着AI要继续提升将不能再模仿人类而是开启自主训练这个训练是不可控的因为它不受现有人类认知水平的束缚

其实人类远非智慧物种贪嗔痴慢疑五毒俱全人类感知也很有限只能看到可见光只能听到20-20000Hz的声音受制于24小时昼夜节律甚至只能感知三维空间想象一下人工智能去除了所有这些限制后会以怎样的方式理解世界的本来面目

o1和R1的惊艳表现也许在暗示我们AI自主学习的能力比我们想象的要强很多这就能解释众多AI界大佬们纷纷投身于AI医疗它真的能发现治疗癌症的方法而且大概率是一种我们无法想象的方法它很有可能会在极短的时间内各方面超越人类并且以无法控制的速度离我们远去这是就是奇点