用最直观的动画，解说LLM怎么存储现实，3Blue1Brown的视频又火了

liukang20242天前群众吃瓜625

机器之心报导

震撼的用最直观的动画，讲解LLM如何存储事实，3Blue1Brown的视频又火了的视图

修改：Panda W、陈陈

本文依据视频收拾而来，有听错或了解不当之处欢迎在谈论区指出。

向大模型输入「Michael Jordan plays the sport of _____（迈克尔・乔丹从事的体育运动是……）」，然后让其猜测接下来的文本，那么大模型八成能正确猜测接下来是「basketball（篮球）」。

这阐明在其数以亿计的参数中潜藏了有关这个特定个人的相关常识。用户乃至会感觉这些模型回忆了许多现实。

但现实终究怎么呢？

近来，3Blue1Brown 的《深度学习》课程第 7 课更新了，其间经过生动详实的动画展现了 LLM 存储现实的方法。视频浏览量高达 18 万次。

上一年 12 月，谷歌 DeepMind 的一些研究者发布了一篇相关论文，其间的详细事例便是匹配运动员以及他们各自的运动项目。

尽管这篇论文并未彻底回答有关 LLM 现实存储的问题，但也得到了一些较为风趣的成果，其间的一个重点是：现实保存在网络中的一个特定部分，这个部分也便是咱们熟知的多层感知器（MLP）。

在 3Blue1Brown 刚刚更新的这期视频中，他们用 23 分的视频演示了大型言语模型怎么存储和处理信息，首要包含以下部分：

LLM 中躲藏的现实是什么
快速回忆 Transformers
示例
多层感知器
核算参数

22:42

视频地址：https://www.youtube.com/watch?v=9-Jl0dxWQs8

在演示视频中，3b1b 的作者口齿清晰、言语规范，配合着高清画面，让读者很好地了解了 LLM 是怎么存储常识的。

许多用户在看完视频后，都惊奇于 3Blue1Brown 教育质量：

还有网友标明，坐等更新这期视频现已很久了：

接下来咱们就深化 MLP 的细节吧。在这篇文章中，机器之心扼要介绍了核心内容，感兴趣的读者能够经过原视频检查完好内容。

MLP 在大模型中的占比不小，但其实结构比较于留意力机制这些要简略许多。尽管如此，了解它也仍是有些难度。

为了简略，下面持续经过「乔丹打篮球」这个详细示例进行阐明吧。

首要，咱们先简略了解一下 Transformer 的作业流程。Transformer 的练习方针是依据已有 token 猜测下一个 token（一般标明词或词组），而每个 token 都相关了一个高维向量。

这些向量会重复经过两类运算：留意力（答应向量之间互相传递信息）与多层感知器（MLP）。当然，它们之间还存在一个特定的归一化进程。

在向量经过屡次如此迭代之后，咱们期望每个向量都现已吸收了足够多的信息。这些信息有的来自练习模型时植入模型权重的一般性常识，也有的来自上下文。这些常识便是模型猜测下一 token 的依据。

需求留意的是，这些向量编码的并不仅仅是单个词汇，而是会在信息在网络中活动时依据周围的环境和模型的常识吸收愈加丰厚的意义。

绚丽的用最直观的动画，讲解LLM如何存储事实，3Blue1Brown的视频又火了的插图

总归，每一个向量编码的信息都远远超越了单个词汇的意义，如此模型才干猜测接下是什么。而存储这些信息便是 MLP（留意力的作用是将上下文结合在一起），也因而大模型的大多数参数都在 MLP 中（约三分之二）。

持续「乔丹打篮球」这个示例。MLP 是怎么存储这一现实的。

首要咱们做一些假定：在高维空间中有这样三个不同的向量，它们别离界说了乔丹的姓 Jordan 和名 Michael 以及篮球 Basketball。

现在，假如该空间中有一个向量与 Michael 向量的乘积为 1，则咱们以为该向量编码了 Michael 这一概念；而假如这个乘积为 0 乃至负数，则以为该向量与 Michael 没有相关。

相同，咱们能够核算该向量与 Jordan 或 Basketball 的乘积，以了解其与这两个概念的相关程度。

而经过练习，可让该向量与 Michael 和 Jordan 的乘积均为 1，此刻就能够以为该向量编码了 Michael Jordan 这个全体概念。

MLP 的内部细节

当这个编码了上述文本的向量序列穿过一个 MLP 模块时，该序列中的每个向量都会阅历一系列运算：

之后，会得到一个与输入向量同维度的向量。然后再将所得向量与输入向量相加，得到输出向量。

序列中的每个向量都会阅历这样的操作，此刻这些操作都是并行履行的，互相之间互不影响。

关于「乔丹打篮球」，咱们期望关于输入的「Michael Jordan」，经过一系列运算之后，能得到「Basketball」的向量。

首要来看这个进程的榜首步。这个线性投射进程就相当于让输入向量乘以一个大型矩阵。这个矩阵里边的数据便是所谓的模型参数（model parameter）。你能够将其视为一个布满操控旋钮的仪表盘 —— 经过调整这些参数，咱们就能操控模型的行为。

关于矩阵乘法，视频中共享了一个视角。咱们能够将矩阵乘法看作是将矩阵的每一行都视为一个向量，然后将这些行与被处理的向量（这儿用 E 标明，意为 embeding，即嵌入）进行一系列点乘。

假如咱们假定该矩阵的榜首行刚好编码了「First Name Michael」且被处理向量也编码了它，那么所得的点积就约为 1。

而假如它们一起编码了姓和名，那么所得的成果应该约等于 2。

你能够以为该矩阵的其它行正在并行地处理其它问题。

别的，一般来说，这一步还会向输出增加另一个向量，也便是所谓的偏置向量，其间的参数是从数据中学习得到的。

在这个比方中，咱们能够看到这个偏置向量的榜首个元素为 -1。也便是说在终究的输出向量中，之前得到的相关点积减去了 1。为什么要这样操作？这是由于这样一来，当且仅当向量编码了全名「Michael Jordan」时，所得向量的榜首项为正数，不然就为 0 或负数。

在实践中，模型矩阵的规划非常大，比方 GPT-3 的矩阵有 49152 行和 12288 列（这个列数便是嵌入空间维度）。

现实上，这个行数恰好是嵌入空间维数的四倍。其实这仅仅一种规划挑选，你能够让它更多，也能够让它更少。

接下来咱们用更简练的方法标明这个矩阵和向量，如下动图所示：

经过上述线性进程之后，需求对输出向量进行收拾。这儿一般会用到一个非常简略的函数：整流线性单元（ReLU）。

深度学习社区传统上喜爱运用过于花哨的姓名，这个非常简略的函数一般被称为整流线性单元（ReLU）。

持续咱们的比方，中心向量的榜首个元素在当且仅当全名是 Michael Jordan 时才为 1，不然为零或负数，在将其经过 ReLU 后，会得到一个非常洁净的值，其间一切零和负值都被切断为零。因而关于全名 Michael Jordan，该输出为 1，不然为 0。这个行为和「与门」非常类似。别的 ReLU 还有一个相对滑润的版别 GeLU。

柔和的用最直观的动画，讲解LLM如何存储事实，3Blue1Brown的视频又火了的图片

接下来又是一个线性投射进程，这一步与榜首步非常类似：乘以一个大型矩阵，加上偏置，得到输出向量。

但这一次，关于这个大型矩阵，咱们不再以行的思路来考虑它，而是以列的思路来看。这些列的维度与向量空间相同。

假如榜首列标明的是「Basketball」且 n_0 为 1（标明该神经元已激活），则该成果就会被增加到终究成果中；不然就不会影响终究成果。当然，这些列也能够标明任何概念。

类似地，咱们将这个大矩阵简化标明为 W ↓，将偏置标明为 B↓，并将其放回到图中。

举例来说，假如输入向量中一起编码了姓名 Michael 和姓氏 Jordan，那么触发操作序列后，便会得到指向 Baskerball 方向的输出向量。

这个进程会并行地针对一切向量履行

这便是 MLP 的运算进程：两个矩阵乘积，每个都增加了偏置。此前这种网络曾被用来辨认手写数字，作用还算不错。

GPT-3 中有 1750 亿参数是怎么核算的？

在接下来的章节中，作者介绍了怎么核算 GPT-3 中的参数，并了解它们的方位。

关于 GPT-3 来说，嵌入空间的巨细是 12288，将它们相乘，仅该矩阵就有六亿多个参数，而向下投影（第二个矩阵）具有相同数量的参数，仅仅形状进行了转置，所以它们加起来大约有十二亿参数。

此外，作者标明还需求考虑别的几个参数，但这只占总数的很小一部分，可忽略不计。嵌入向量序列流经的不是一个 MLP，而是 96 个不同的 MLP，因而用于一切这些块的参数高达 1000 多亿，这约占网络中总参数的三分之二。

最终，将留意力块、嵌入和 unembedding 等组件的一切参数加起来，总计能够得到 1750 亿参数。

别的值得一提的是，还有另一组与归一化进程相关的参数，不过视频示例中跳过了这些参数，它们只占总数的很小一部分。

视频最终介绍了叠加（Superposition）这一概念。依据标明，单个神经元很少像迈克尔・乔丹那样代表某个单一特征，实际上或许有一个很好的理由，这与现在在可解说性研究人员中撒播的一个主意有关，称为 Superposition，这是一个假定，或许有助于解说为什么这些模型特别难以解说，以及为什么它们的扩展性出奇地好。

感兴趣的读者能够参阅原视频，了解更多内容。

3blue1brown 介绍

3blue1brown 是一个专门制造可视化解说视频的频道，其内容掩盖数学、人工智能等范畴，每门课都配有直观生动的动画演示，协助观众加深对概念定理的了解。

除了 YouTube 上 640 万订阅者之外，3b1b 在 B 站上还有官方账号，粉丝数量超越 215 万，每个视频都是 10 万以上播映量，乃至有教师在课堂上播映该频道的视频。关于一个硬核教育 UP 主来说，这样的成果几乎是无人可及了。

作为一直以来都非常受欢迎的了解数学概念的网站，3blue1brown 的可视化一直都做得非常好。在本期视频中，咱们能够直观感触到了。

3b1b 的创立者 Grant Sanderson，结业于斯坦福大学数学系，他的大部分视频和动画引擎是独立完结的，这是他此前在斯坦福学习时的业余项目。

在斯坦福，Grant「走了点核算机科学的弯路」，随后结业加入了 Khan Academy 并担任了两年的数学讲师，在 2016 年之后，他开端全身心投入 3b1b 的作业中。

假如你对自己的学习才能决心缺乏，或许看看 3b1b 的内容会是一个好主意，全程动画演示，让你对常识点理解的彻彻底底。

参阅链接：https://www.youtube.com/watch?v=9-Jl0dxWQs8

告发/反应