2024-08-31

李沐：语言模型的现状与未来

AI大牛李沐最近回到上海交通大学做了一次演讲，聊了聊语言模型的现状和未来趋势。李沐的观察很有启发，不愧是这个站在这个领域最前沿的人。他说，现在的AI基本可以完成文科白领的大部分工作，但是要完成复杂任务和与真实世界交互还有很长的路要走。而制约大模型发展的瓶颈主要是内存、电力、数据，其中数据的重要性在演讲中反复被强调。

李沐最后还给交大学子们指点人生迷津。他说创业就像是当海盗，天天看着市面上什么好的机会，一旦发现就all-in，抢到了就爽一把，没有抢到就死掉了。相比起在大公司里上班和读博深造，创业对动机（motivation）的要求是最高的。你内心深处要有那么一件十分想去做，不去做就抓耳挠腮，就会后悔的事情。这个事情要满足你最深层次的欲望，你还要能抗得住一次次的打击，在别人都不看好的时候坚持走你选择的路。创业就是要笃定，就是要让自己的内心强大到混蛋。

以下是李沐演讲中关于技术方面的总结。

算力：内存和电力将是瓶颈

当前，算力发展面临着几个关键问题。首先，带宽被认为是最重要且最难解决的问题。随着模型规模的不断扩大，数据传输速度成为制约因素。目前，每根光纤可以提供400Gbps的带宽，未来有望达到800Gbps。然而，带宽的提升对于大规模分布式训练至关重要。其次，内存大小直接限制了模型的上限。目前，单个芯片可以封装192GB内存，但这个数字在未来几年内可能难以突破。这意味着模型大小可能会在一定程度上受到限制，除非出现重大技术突破。

虽然计算能力仍在遵循摩尔定律增长，但NVIDIA在市场上的垄断地位影响了价格下降的速度。这导致了高性能计算设备价格居高不下，增加了研究和应用的成本。随着计算规模的扩大，供电成为一个日益突出的问题。大规模AI训练中心的用电量已经达到惊人的程度，甚至出现了自建发电厂的想法，以降低运营成本。

尽管面临这些挑战，长期来看，算力仍将变得越来越便宜。这一趋势将持续推动AI技术的发展和普及。然而，如何有效利用和优化现有算力资源，将成为未来AI研究和应用的重要课题。

模型与算法：不存在完全的垂直模型

目前语言模型的规模已经达到一个相对稳定的区间。预训练数据量通常在10T到50T之间，模型参数在100B到500B之间。这个规模已经能够捕捉到大量的语言知识和世界知识，但进一步增大可能会面临收益递减的问题。

语言模型正在向多模态方向发展，特别是在音频和视频领域取得了显著进展。这使得模型能够理解和生成更丰富的内容，如语音合成、图像生成和视频处理等。随着语音识别和合成技术的进步，预计语音交互将在未来变得更加普及和自然。这可能会改变人机交互的方式，使得与AI系统的交流更加直观和便捷。

预训练已经逐渐变成了一个工程问题，而后训练则成为了技术难点。如何有效地利用预训练模型，并通过后训练使其适应特定任务，成为了研究的重点。实践表明，并不存在真正的”垂直模型”。即使是针对特定领域优化的模型，也需要强大的通用理解和推理能力作为基础。这意味着，提升模型的整体智能水平仍然是核心任务。

李沐也指出了评估的重要性。目前的的评估方法往往无法反映模型在实际应用中的真实表现。评估的复杂性源于自然语言的多义性,以及需要考虑准确性、语言风格和逻辑连贯性等多个因素。设定合适的评估标准是一个关键挑战,这些标准需要能够准确反映模型在实际应用中的表现,而不仅仅是在特定测试集上的表现。李沐还指出了评估与数据之间的密切关系,好的评估方法本身可以成为有价值的数据来源,不仅是检验模型的手段,也是改进模型的重要途径。

数据！数据！数据！

李沐在演讲中多次强调了数据的重要性。只要能采集到足够的高质量数据，任何领域都有可能被自动化。这意味着，未来的竞争可能更多地集中在数据获取和处理能力上。高质量数据对模型效果有巨大影响。相比简单地增加数据量，提高数据质量往往能带来更显著的性能提升。

尽管模型训练技术不断进步，但大部分时间仍然需要花在数据处理上。如何高效地收集、清洗和标注数据，成为了AI项目成功的关键因素之一。随着数据在AI发展中的重要性日益凸显，数据伦理和隐私保护也成为了不容忽视的问题。如何在充分利用数据的同时，保护个人隐私和维护社会公平，是整个行业面临的重大挑战。

现在的AI还只是一个文科白领

文科白领工作是AI目前最容易替代的领域。这包括了写作、个人助理、教育、游戏策划等需要使用自然语言与人和世界打交道的工作。李沐认为，在这些领域，语言模型已经能够完成80%到90%的工作。例如，AI可以生成各种文章、报告，处理文本，甚至进行教学任务。这种高度的替代能力主要归功于大型语言模型在处理和生成自然语言方面的卓越表现。

工科白领工作，如编程和问题解决，目前还难以被AI完全替代，但AI已经能够提供很大的辅助作用，比如帮助程序员完成一些基础的编码任务，如搜索和修改代码片段。然而，对于更复杂的编程任务，如系统设计或解决复杂问题，AI还无法完全取代人类。

对于大多数需要与复杂物理世界互动的蓝领工作，如搬运货物或服务行业，AI替代还面临着巨大挑战。这是因为这些工作需要理解和适应高度复杂和变化的环境，这对AI来说仍然是一个难题。当然也有例外。自动驾驶是一个突出的例子，它在特定的封闭环境中取得了显著进展。这主要是因为交通环境相对稳定，且可以收集大量数据。李沐估计，要让AI在这些领域取得突破，可能还需要至少五年的时间来建立必要的基础设施和收集足够的数据。

LZ Blog

我们向着太阳奔跑，试图甩掉身后的影子

李沐：语言模型的现状与未来

算力：内存和电力将是瓶颈

模型与算法：不存在完全的垂直模型

数据！数据！数据！

现在的AI还只是一个文科白领