今天看到一个3年多前(2022年3月) IBM 科技频道介绍 Transformer 的科普视频。那时候 ChatGPT-3.5 还没有发布,大语言模型还是一个十分新鲜的事物。不知道当时的人,是否会想到,这项看起来并没有什么特殊的技术,在不久之后改变了整个世界。

2017 年,Google 发布了 《Attention Is All You Need》(注意力就是你所需要的一切)。这篇论文首次提出了完全基于注意力机制(attention mechanism)、摒弃了传统循环神经网络(RNN)和卷积神经网络(CNN)的 Transformer 架构。 这篇论文的发表彻底改变了自然语言处理(NLP)领域,并成为后续许多大型语言模型(如 GPT、BERT、PaLM 等)的基础架构。

在此之前,翻译、聊天机器人、语音识别,主流方案是 RNN。它的思路比较直接。就像人读句子一样,从头读到尾,每次记住点信息,然后继续往后传。但问题也很明显,记忆力是有限的,句子一长,前面说了啥,后面就忘了,而且处理起来效率也很低。

Transformer 的出现直接把这套做法给颠覆了。它抛弃了 “按顺序一行行处理”,改成 “把所有内容同时拿到台面上分析”。关键就在于它的 “注意力机制” 简单说,就是让模型自己判断,句子里哪些词之间关系密切,哪些是无关紧要的背景。比如,在 “香蕉为什么过马路”这句话里,模型会发现 “香蕉” 和 “过马路” 关系最直接,“为什么” 只是用来提问的。

这种机制的好处,就是不管句子有多长,模型都能灵活地抓住重点。这有点像,你一边刷手机一边和朋友聊天,脑子会自动记住重要的信息,过滤掉次要的内容。Transformer 就是这种 “聪明的脑子”。

在论文中,Transformer 包含编码器和解码器两部分。编码器负责把输入内容 “压缩” 成复杂的向量表示,解码器则负责把这些信息 “翻译” 成目标输出。两者之间通过交叉注意力机制传递信息。

但后续的模型根据不同任务做了变化,例如 GPT 系列模型采用纯解码器架构,专注于根据上文生成下文。BERT 采用纯编码器架构,专注于理解和表示文本。T5 等模型保留了完整的编码器-解码器结构,适合翻译、摘要等任务。

另一个厉害的地方,就是训练方式。Transformer 会先通过无监督预训练,也就是在海量的没有答案的数据上 “自学”,自己看文本,自己琢磨规律。等掌握了一定的规律,再采用监督学习,用少量“带答案” 的数据给它 “补课”,让它专攻某个任务。这样一来,不仅学得快,还能举一反三。

为什么 Transformer 这么重要?一是它能并行处理,速度比老方法快很多,训练大模型时优势特别明显。二是它对长文本、复杂结构的理解力更强。三是迁移能力好,同一套方法,不管文本、图片、音频,都能用。现在最强的语言模型、图像生成工具,背后几乎都有 Transformer 。

当然,Transformer 也不是万能的。它需要大量数据和算力,训练成本高,对普通个人用户来说有点遥远。但它确实极大推动了 AI 的发展,让机器的 “理解力” 和 “表达力” 跃上了一个新台阶。