参数|1.2万亿参数：谷歌通用稀疏语言模型GLaM，小样本学习打败GPT-3_模型|训练|token|任务|通用|参数

机器之心报道
机器之心编辑部

大规模语言模型性能固然好，但计算和资源成本太高了，有没有方法可以更有效地训练和使用 ML 模型呢？

近几年，我们已经看到模型规模越来越大，例如 2018 年诞生的 GPT 具有 1.17 亿参数，时隔一年， 2019 年 GPT-2 参数量达到 15 亿， 2020 年更是将其扩展到 1750 亿参数的 GPT-3 。据了解， OpenAI 打造的超级计算机拥有 285000 个 CPU 核以及 10000 个 GPU ，供 OpenAI 在上面训练所有的 AI 模型。
大型语言模型虽然训练昂贵，但也有其重要的一面，例如可以在各种任务中执行小样本学习，包括阅读理解、问答。虽然这些模型可以通过简单地使用更多参数来获得更好的性能。但是有没有方法可以更有效地训练和使用这些模型呢？
【参数|1.2万亿参数：谷歌通用稀疏语言模型GLaM，小样本学习打败GPT-3】为了回答这个问题，谷歌推出了具有万亿权重的通用语言模型 (Generalist Language Model ， GLaM) ，该模型的一大特点就是具有稀疏性，可以高效地进行训练和服务（在计算和资源使用方面），并在多个小样本学习任务上取得有竞争力的性能。
我们来看一下 GLaM 模型的具体情况。
数据集
谷歌首先构建了一个高质量的、具有 1.6 万亿 token 的数据集，该无标签数据集很大一部分来自 Web 页面，其范围从专业写作到低质量的评论和论坛页面。此外，谷歌还开发了一个文本质量过滤器，该过滤器是在维基百科和书籍文本数据集上训练而成，由于过滤器训练的数据集质量很高，所以谷歌将其过滤 Web 网页内容的质量。最后，谷歌应用这个过滤器来生成 Web 网页的最终子集，并将其与书籍和维基百科数据相结合来创建最终的训练数据集。
GLaM 模型架构
GLaM 是混合专家模型 (MoE)，这种模型可以被认为具有不同的子模型（或专家），每个子模型都专门用于不同的输入。每一层的专家由一个门控网络控制，该门控网络根据输入数据激活专家。对于每个 token（通常是一个词或词的一部分），门控网络选择两个最合适的专家来处理数据。完整的 GLaM 总共有 1.2T 参数，每个 MoE 包含 64 个专家，总共 32 个 MoE 层，但在推理期间，模型只会激活 97B 的参数，占总参数的 8% 。

文章图片

GLaM 的体系架构，每个输入 token 都被动态路由到从 64 个专家网络中选择的两个专家网络中进行预测。
与 GShard MoE Transformer 类似，谷歌用 MoE 层替换其他 transformer 层的单个前馈网络（人工神经网络最简单的一层，如上图蓝色方框中的 Feedforward 或 FFN）。 MoE 层有多个专家，每个专家都是具有相同架构但不同权重参数的前馈网络。

参数|1.2万亿参数：谷歌通用稀疏语言模型GLaM，小样本学习打败GPT-3

推荐阅读

赵丽颖演的西游记电影是哪部

历史悠久的毛南族语法

OL丽人最佳的护眼宝典

棉花糖煮不化是什么原因

中工网贵州：让红色历史更鲜活

黑金巧克力脏脏月饼怎么做黑金巧克力脏脏月饼做法

香椿不能和什么一起吃什么食物不能和香椿一起吃

游戏战斗中可以切换携带的铭文吗一看便知

海带结萝卜排骨羹怎么做海带结萝卜排骨羹的做法步骤

鱼香肉丝的做法（竹笋）

婚外情分几个阶段婚外情的五个阶段

经典广式月饼馅料莲蓉馅的做法（运动员食谱）

vivox20支持电信版吗

烤箱刚开始用怎么预热怎样预热烤箱

mis系统介绍什么是mis系统

休息的休是什么意思

什么是清考什么叫做清考

qq怎么群发

好看的水浒小说

玻璃纤维网格布的克重怎么计算玻纤网格布容重计算