揭秘大模型:从原理到实战
上QQ阅读APP看书,第一时间看更新

1.4 压缩即智能——为什么ChatGPT拥有智能

随着ChatGPT、PaLM 2、文心一言等各种大型语言模型的火爆,人们在惊叹它们的强大能力的同时,也在不断地思考一个问题:为什么只有解码器的ChatGPT也能表现出智能?

生成式预训练变压器(generative pre-trained Transformer,GPT)实际上就是基于Transformer的只有解码器的模型。图1-13展示了GPT的模型结构[2],它的本质是预测下一个词。为什么这样一个简单的结构就能够训练出具有智能的大模型呢?

图1-13 GPT的模型结构

目前规模较大的语言模型在训练基础模型时,都采用了预测下一个词的任务。这个任务非常简单,就是根据语句中前面的词来生成下一个词。但这样学习到的似乎只是词之间的表面统计关系,怎么就能体现出智能呢?这确实很难理解。

OpenAI的核心研发人员杰克·瑞(Jack Rae)曾在斯坦福机器学习相关研讨会上分享了一个主题:通用人工智能中的压缩。杰克·瑞之前是OpenAI团队的负责人,主要研究大模型和远程记忆。他曾在DeepMind工作了8年,领导了大模型研究组。

在此分享中,杰克·瑞提出了如下两个核心观点:

压缩就是智能。

大模型就是压缩(GPT的预测下一个词的任务本质上是对训练数据的无损压缩)。

他通过论证压缩就是智能,以及GPT的训练过程是对数据的无损压缩,证明了GPT具有智能。下面具体介绍杰克·瑞是如何证明GPT具有智能的。