李沐:语言模型的现状与未来

AI大牛李沐最近回到上海交通大学做了一次演讲聊了聊语言模型的现状和未来趋势李沐的观察很有启发不愧是这个站在这个领域最前沿的人他说现在的AI基本可以完成文科白领的大部分工作但是要完成复杂任务和与真实世界交互还有很长的路要走而制约大模型发展的瓶颈主要是内存电力数据其中数据的重要性在演讲中反复被强调

李沐最后还给交大学子们指点人生迷津他说创业就像是当海盗天天看着市面上什么好的机会一旦发现就all-in抢到了就爽一把没有抢到就死掉了相比起在大公司里上班和读博深造创业对动机motivation的要求是最高的你内心深处要有那么一件十分想去做不去做就抓耳挠腮就会后悔的事情这个事情要满足你最深层次的欲望你还要能抗得住一次次的打击在别人都不看好的时候坚持走你选择的路创业就是要笃定就是要让自己的内心强大到混蛋

以下是李沐演讲中关于技术方面的总结


算力内存和电力将是瓶颈

当前算力发展面临着几个关键问题首先带宽被认为是最重要且最难解决的问题随着模型规模的不断扩大数据传输速度成为制约因素目前每根光纤可以提供400Gbps的带宽未来有望达到800Gbps然而带宽的提升对于大规模分布式训练至关重要其次内存大小直接限制了模型的上限目前单个芯片可以封装192GB内存但这个数字在未来几年内可能难以突破这意味着模型大小可能会在一定程度上受到限制除非出现重大技术突破

虽然计算能力仍在遵循摩尔定律增长但NVIDIA在市场上的垄断地位影响了价格下降的速度这导致了高性能计算设备价格居高不下增加了研究和应用的成本随着计算规模的扩大供电成为一个日益突出的问题大规模AI训练中心的用电量已经达到惊人的程度甚至出现了自建发电厂的想法以降低运营成本

尽管面临这些挑战长期来看算力仍将变得越来越便宜这一趋势将持续推动AI技术的发展和普及然而如何有效利用和优化现有算力资源将成为未来AI研究和应用的重要课题

模型与算法不存在完全的垂直模型

目前语言模型的规模已经达到一个相对稳定的区间预训练数据量通常在10T到50T之间模型参数在100B到500B之间这个规模已经能够捕捉到大量的语言知识和世界知识但进一步增大可能会面临收益递减的问题

语言模型正在向多模态方向发展特别是在音频和视频领域取得了显著进展这使得模型能够理解和生成更丰富的内容如语音合成图像生成和视频处理等随着语音识别和合成技术的进步预计语音交互将在未来变得更加普及和自然这可能会改变人机交互的方式使得与AI系统的交流更加直观和便捷

预训练已经逐渐变成了一个工程问题而后训练则成为了技术难点如何有效地利用预训练模型并通过后训练使其适应特定任务成为了研究的重点实践表明并不存在真正的”垂直模型”即使是针对特定领域优化的模型也需要强大的通用理解和推理能力作为基础这意味着提升模型的整体智能水平仍然是核心任务

李沐也指出了评估的重要性目前的的评估方法往往无法反映模型在实际应用中的真实表现评估的复杂性源于自然语言的多义性,以及需要考虑准确性语言风格和逻辑连贯性等多个因素设定合适的评估标准是一个关键挑战,这些标准需要能够准确反映模型在实际应用中的表现,而不仅仅是在特定测试集上的表现李沐还指出了评估与数据之间的密切关系,好的评估方法本身可以成为有价值的数据来源,不仅是检验模型的手段,也是改进模型的重要途径

数据数据数据

李沐在演讲中多次强调了数据的重要性只要能采集到足够的高质量数据任何领域都有可能被自动化这意味着未来的竞争可能更多地集中在数据获取和处理能力上高质量数据对模型效果有巨大影响相比简单地增加数据量提高数据质量往往能带来更显著的性能提升

尽管模型训练技术不断进步但大部分时间仍然需要花在数据处理上如何高效地收集清洗和标注数据成为了AI项目成功的关键因素之一随着数据在AI发展中的重要性日益凸显数据伦理和隐私保护也成为了不容忽视的问题如何在充分利用数据的同时保护个人隐私和维护社会公平是整个行业面临的重大挑战

现在的AI还只是一个文科白领

文科白领工作是AI目前最容易替代的领域这包括了写作个人助理教育游戏策划等需要使用自然语言与人和世界打交道的工作李沐认为在这些领域语言模型已经能够完成80%到90%的工作例如AI可以生成各种文章报告处理文本甚至进行教学任务这种高度的替代能力主要归功于大型语言模型在处理和生成自然语言方面的卓越表现

工科白领工作如编程和问题解决目前还难以被AI完全替代但AI已经能够提供很大的辅助作用比如帮助程序员完成一些基础的编码任务如搜索和修改代码片段然而对于更复杂的编程任务如系统设计或解决复杂问题AI还无法完全取代人类

对于大多数需要与复杂物理世界互动的蓝领工作如搬运货物或服务行业AI替代还面临着巨大挑战这是因为这些工作需要理解和适应高度复杂和变化的环境这对AI来说仍然是一个难题当然也有例外自动驾驶是一个突出的例子它在特定的封闭环境中取得了显著进展这主要是因为交通环境相对稳定且可以收集大量数据李沐估计要让AI在这些领域取得突破可能还需要至少五年的时间来建立必要的基础设施和收集足够的数据