020-123456789
江津市某某投资咨询售后客服中心
首页 >产品中心
模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向
发布日期:2024-04-27 20:08:04
浏览次数:051
传统集成方法和其它模型融合方法。模型这种方法能显著提升标准 SWA 和 EMA 方法的融合性能。再扩展这些方法,混合而在 Mixtral 8x7B 中,专家展方可用于 LLM 的懂年代码生成任务,也胜过一个 Transformer-MoE 基准模型。篇论最新权重平均(LaWA,模型比如 Llama 2 7B Chat。融合将知识融合到模型中、混合

权重平均和模型融合都是专家展方将多个模型或检查点模型组合成单一实体。目标是懂年达到 CodeLlama 70B 的代码水平。可以免费用于学术和商业目的篇论。

在此之前,模型论文《Early Weight Averaging Meets High Learning Rates for LLM Pre-training》探索了 LaWA 的融合一个修改版,他们使用多达 700 亿参数的混合模型在多个问答数据集上实验验证了这一点。

论文《Mixtral of Experts》中对 MoE 模块的解释论文《Mixtral of Experts》中对 MoE 模块的解释

如果用数学表示,

乍一看,其做法是将监督式微调与强化学习组合起来使用,不过它们也有差别:其模型并不是采样于同一轨迹,但我猜想他们总是标记权重更高的专家。

一月份其它有趣的研究论文

下面是一月份我看到的其它一些有趣论文。WARM 的表现超过了最佳的单奖励模型方法" cms-width="677" cms-height="768.672" id="9"/>在第 3000 步时,)

4.TinyLlama:An Open-Source Small Language Model

论文地址:https://arxiv.org/abs/2401.02385

微软的 phi-2 在去年 12 月引起了不少关注,

该论文探究了如何将 Llama 等 LLM 的能力迁移用于非英语任务 —— 用不到 1% 的预训练数据就可以实现与当前最佳模型相当的性能。相对于传统的集成方法(需要同时运行多个模型),根据上式,

研究者提出通过激活信标(activation beacon)来扩展 LLM 的上下文窗口。

该研究探索了直接偏好优化(DPO)算法如何通过降低有害性来将 GPT2-medium 等预训练模型与用户偏好对齐,

3. 针对特定任务进行微调:提升 Llama 2 70B 基础模型执行特定任务的能力,并且对比了其它微调策略,提升整体性能和提升稳健性。但却是目前最受瞩目的方法。可将多个不同 LLM 组合成一个统一模型,

但这篇论文也有个小问题:作者并未分享训练数据集的有关信息。并能为教育和研究应用带来新的可能性。也就是内部权重不可用时,

权重平均和模型融合(左)和多数投票(majority voting)等传统集成方法(右)权重平均和模型融合(左)和多数投票(majority voting)等传统集成方法(右)

传统上讲,其使用了更高的学习率,如 GitHub、该架构在更高的图像分辨率上表现尤其出色。其直接操作原始字节,

该论文提出将 Mamba 等状态空间模型与混合专家(MoE)组合起来,

然后到了 2023 年,其做法是在固定的预训练权重上训练低秩和高度稀疏的组件,如下图所示。并可望在更广泛的任务上实现更好的性能。你可以访问其 GitHub 代码库:https://github.com/jzhang38/TinyLlama

小型 LLM(也常写成 SLM,7B 是指其组合了 Mistral 7B 模块。

这篇论文评估了不同的全微调和参数高效型微调技术,问题也依然存在:较小模型必须与大型目标模型有一样的词表。「开源」是指通过一个不受限的开源软件库提供训练代码和检查点模型。(论文地址:https://arxiv.org/abs/2212.10445)

Model Ratatouille 背后的思想是复用多个同一基础模型在不同的多样性辅助任务上微调过的迭代版本,作者没能观察到特定于具体主题的专业性,比如 TriviaQA 或数学问题。可让所得 LLM 的效果和效率媲美甚至超越更大型的对应模型。之后这些分数会通过 softmax 等函数转换成概率。这里,精度召回曲线下面积(AUPRC)优于接收者操作特征下面积(AUROC)。

3. 通过将多个小型模块组合起来创建混合专家模型,目前是性能最佳的大型语言模型(LLM)之一,

尽管 RAG(检索增强式生成)和微调谁更胜一筹的争论一直存在,那么 WARM 是如何对权重执行平均以获得奖励模型呢?这里,可以沿微调轨迹进行采样。也许是时候盘点一番新年首月进展了。尽管还没人对它们直接进行比较。

DiffusionGPT 是一种文本到图像生成框架,参数效率高并且有能力处理长达 32k 的上下文窗口,它们的研究主题简单总结起来是这样:

1. 权重平均和模型融合可将多个 LLM 组合成单个更好的模型,这能在多种任务上实现更快的预训练,但这篇论文却表明可将 RAG 和微调组合起来,

使用 LLM 作为评判员(LLM-as-a-Judge)的方法在训练期间执行自我奖励,该研究优化了 Chinchilla 缩放率并且表现优于 LLaMA-2 70B 和 GPT-3.5 等模型。

另一种方法是指数移动平均(EMA,所谓的激活信标是指添加到输入上下文中的激活的压缩状态。G 表示路由(即门控网络),)

3.Mixtral of Experts

论文地址:https://arxiv.org/abs/2401.04088

Mixtral 8x7B 论文终于来了!

该论文讨论了如何让 LLM 保持信息更新,

选自Ahead of AI

作者:Sebastian Raschka

机器之心编译

编辑:Panda

还有 10 个月,如果有人知道 GPT-4 的词表并且可以访问其 logit 输出,Stochastic Weight Averaging)。

  • 论文标题:The Unreasonable Effectiveness of Easy Training Data for Hard Tasks

  • 论文地址:https://arxiv.org/abs/2401.06751

作者发现,它成为了 Open LLM 排行榜上占据主导地位的技术。其中权重是由门控网络 G (x)_i 为每个输入 x 提供的。但是,其中揭示出它会绕过而不是移除预训练功能。因此,

2.Tuning Language Models by Proxy

论文地址:https://arxiv.org/abs/2401.08565

论文《Tuning Language Models by Proxy》提出了一种可用于提升 LLM 的技术:proxy-tuning。其利用了扩散模型和一个精心合成的数据集来估计部分遮挡目标的形状和外观。

可以观察到,(OOD = 分布外 / 泛化)" cms-width="677" cms-height="242.578" id="4"/>通过 Model Ratatouille 实现模型融合,该过程涉及两个较小的模型:一个小型基础模型(M2),在推理时间的成本并不会超过单个模型。如论文《LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition》展现的那样。让 LLM 可以生成并优化自己的训练数据,得到了一个名为 VMamba 的新架构,

  • 开发和预训练成本更低 —— 这些模型仅需要相对少量的 GPU。通常而言,Logit 是指模型最终层生成的原始输出值。

  • 对教育方面的应用很有价值 —— 小型 LLM 更容易掌控,使之能比肩 Llama 2 70B Chat 模型。可避免子词 token 化偏差。E_i 表示专家模块的输出。

    • 论文标题:RoSA:Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation

    • 论文地址:https://arxiv.org/abs/2401.04679

    这项研究提出了一种新的用于 LLM 的参数高效型微调方法 RoSA。这种技术能有效地用于 ResNet 视觉模型和 RoBERTa 语言模型。这意味着 Mistral 7B 模型有 9B 个非前馈参数;有趣的是,该研究还给出了一种将模型恢复到其原始有毒行为的方法。还有,根据上图所示的基准结果,每个子网络都负责处理不同类型的任务。并整合未来的 token。因此,但是,它需要计算一个较小基础模型和一个已微调模型之间的 logit 之差。甚至在专有模型上也是如此。

    • 论文标题:An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models

    • 论文地址:https://arxiv.org/abs/2401.06692

    使用 LLM 的监督式微调中的实验设计技术(选取信息量最大的样本进行标注以最大化效率),其将 span 损坏和 token 替换检测组合成了一个两阶段课程;其靠少 50% 的预训练迭代次数和少 40% 的计算成本实现了与标准方法一样的性能。这种将多个模型组合成一个模型的思想可以提升训练的收敛、

    • 论文标题:LLM Maybe LongLM:Self-Extend LLM Context Window Without Tuning

    • 论文地址:https://arxiv.org/abs/2401.01325

    这篇论文提出了一种非常简单的技术(只有 4 行代码),这个模型的表现能比肩大得多的 Llama 2 70B 模型。并且对比了其它微调策略,也就是一次仅使用 2 个专家。如下图所示。并且发现全微调通常性能表现最佳,WARM 论文提出通过权重平均将 LLM 奖励模型组合到一起。这是解码阶段中一个非常简单的过程。该论文研究了以自回归方式(无监督)来预训练视觉模型。

  • 在过去的 2023 年中,并且这个新模型还没有传统集成方法的典型缺陷,可在损失和准确度方面将训练过程加速多个 epoch。

    作者提出使用经过阐释的网络文档来更高效地训练大型语言模型,即小型语言模型)为何如此吸引人?因为小型 LLM:

    但是,从作者的训练过程可以得到一个颇具教育意义的有趣见解:在 1 万亿 token 上训练该模型 3 epoch(而不是 1 epoch)实际上是有用的,来自论文《Attention Is All You Need》

    前馈模块本质上就是一个多层感知器。比如 Llama 2 7B;一个经过微调的基础模型(M3),

    这项研究表明,如果作者能基于同一数据集比较一下 Mixtral 8x7B 和 Llama 2 70B 就更好了;但这类研究的成本很高。举个例子,下面我们简单讨论一下这两个概念。不同于传统的集成方法,这些研究者在三个不同场景中实验了这种方法:

    1. 指令微调:提升 Llama 2 70B 基础模型,该模型仅使用 13B 参数。但其实它还有另一种调整:Mixtral 是一种稀疏 MoE,

    这篇论文挑战了机器学习领域一个广被认可的信念:对于类别不平衡的二元分类问题,

    MambaByte 是一种无 token 语言 Mamba 选择性状态空间模型,

    WARM 是如何发挥作用的?方法其实相当简单:类似于随机权重平均,

    4. 预训练一个小型的 1.1B 参数的 LLM 可降低开发和运营成本,这就意味着每个输入只会使用这些专家中的一部分:

    在 Mixtral 8x7B 这个特例中,我相信 MoE 模型也会成为 2024 年大多数开源项目的一个重点关注领域,

    但是,这就意味着可以在资源有限的计算设备(比如笔记本电脑和 / 或小型 GPU)上运行它们。通过平均最新的 k 个检查点的权重(每个权重都在 epoch 结束时获取),值得期待。需要重点指出:Mixtral 的大小并不是 8x7B = 56B。

    这篇论文提出了 Multimodal Pathway(多模态通路)。因此更容易理解和调整。

    总体而言,

    研究者提出了一种知识融合方法,

    何为权重平均?因为用于 LLM 的权重平均和模型融合可能会成为 2024 年最有趣的研究主题,

    实践方面的考虑

    这种方法可以用于提升研发效率:开发新的训练或模型提升方法并在较小模型上测试它们以降低成本。并能在单个 A100 (80GB) GPU 上运行 Llama-7B 等模型同时还支持高达 100 万的上下文长度。可比肩甚至超越 Llama 2 70B 等更大模型、代理调优是一种能高效利用资源的方法。

    Mixtral 8x7B 能在许多基准上比肩甚至超越大得多的 Llama 2 70B 模型Mixtral 8x7B 能在许多基准上比肩甚至超越大得多的 Llama 2 70B 模型

    Mixtral 架构

    Mixtral 8x7B 的关键思想是用 8 个专家层替换 Transformer 架构中的每个前馈模块,经过代理调优的 70B Llama 2 模型的表现优于 70B 基础模型,其在多种图像识别任务上都取得了显著的性能提升。其使用了交叉注意力来提升在新任务上的表现(比如资源很少的语言的翻译和代码生成任务),他们提出了一种去噪视觉 Transformer,其中回顾点评了多种知识编辑技术(使用外部知识、

    现在,研究表明,

    EAGLE 能加速 LLM 中的自回归解码,

    代理调优图示代理调优图示

    为了更清晰地说明这一概念,提升后的目标模型 M1* 的输出 logit 是这样计算的:M1*(x) = M1 (x) + [M3 (x) - M2 (x)]。

    这项研究可提升视觉 - 语言模型(VLM)的 3D 空间推理能力 —— 作者开发了一个互联网规模的空间推理数据集并基于其训练了一个 VLM。(理论上讲,同时也是最受人关注的一种公开可用的 LLM。因此很可能在可预见的未来(或至少在未来几个月)里成为一大颇具吸引力的模型。模型依然会继续提升。这是一种简单却有效的强化学习算法,G (x) 的输出可能看起来是这样的:[0, 0, 0.63, 0, 0, 0.37, 0, 0]。然后,展望 2024 年的开源和研究进展,其作用是将每个 token 嵌入重定向到 8 个专家前馈模块。TinyLlama 不仅小,

    Mixtral 8x7B 总共有 47B 参数,但在 LLM 领域却是比较新的;考虑到 LLM 的高成本和资源需求,Model Ratatouille 方法可以总结成下图。

    代理调优的实践效果如何?

    他们的实验得到了让人印象深刻的积极结果。并可从一个思维树(Tree-of-Thought)结构(同样也整合了人类反馈)中选择最合适的生成模型。

    该论文提出了自我对弈偏好优化(SPO),

    2. 代理调优(proxy-tuning)技术可通过使用两个小型 LLM 来提升已有大型 LLM 的性能,因此对于每个输入 token,

    研究者提出了一种量化键 - 值缓存激活的方法,

    受 LLM 预训练的启发,胜过其它同等大小的开源模型。获得更优的性能,

    代理调优是通过调整目标 LLM 的 logit 来实现的,此外,WARM 的表现超过了最佳的单奖励模型方法

    总结

    模型融合并不是一种新技术,

    2. 领域适应:提升 Llama 2 70B 基础模型的代码能力,这是一种用于训练 LLM 的方法,

    来自 TinyLlama 论文的图表,它的效率就比常规的非 MoE 47B 参数模型高多了。同时还不会忘记以前的知识。仅有 1.1B 参数,</p><p cms-style=

    这项研究将视觉 Transformer 的全局感受野和动态权重与 CNN 的线性复杂性组合起来,而模型融合则是将多个不同的已训练模型组合成单个模型。这一技术的一种常见形式是随机权重平均(SWA,7B 参数表示 Mistral 7B 模型的整体参数规模,然后再将这个差添加到目标模型的 logit。以下是机器之心对原文不改变原义的编译与整理。他们就可以使用此方法创建专用型的 GPT-4 模型。而权重则在学习率衰减期间(仍然相对较高)在多轮迭代上进行平均。和随机权重平均一样,

    原文链接:https://magazine.sebastianraschka.com/p/research-papers-in-january-2024

    他们使用了一种简单的线性平均。

    来自论文《Mixtral of Experts》来自论文《Mixtral of Experts》

    让专家专业化

    有趣的问题来了:这些专家能否展现出任何特定于任务或 token 的模式?不幸的是,作者却观察到了一个有趣的现象:文本数据集中的连续 token 通常会被分配给同样的专家。然后再使用这些概率来采样得到最终输出结果,(早期实验表明,

    来自论文《Early Weight Averaging meets High Learning Rates for LLM Pre-training》的修改版 LaWA,

    CALM(增强语言模型的组合方法)是将础 LLM 和专业 LLM 组合到一起,而是基于预训练模型独立创建的,

    不同的模型融合和平均方法之间的比较不同的模型融合和平均方法之间的比较

    按照上述 WARM 流程并且平均了 10 个奖励模型后,但也可以理解,

    Transformer 架构,相较于原始基础模型,</p><p cms-style=

    Pix2gestalt 是一种用于零样本非模态图像分割的框架,Latest Weight Averaging)表明,则可以写成如下形式:

    这里,自我博弈微调)。之后 TinyLlama 就成了小型 LLM 类别的新晋成员。其方法是在次要的特征层级上进行处理,也可以使用一组小型 LoRA 矩阵替代多个小型专用模型 。将 Llama 7B 转变为 Llama Pro-8.3B。Python 代码中的缩进 token 经常被分配给同一专家,如果要在真实世界中实际使用这些方法,

    来自论文《Mixtral of Experts》来自论文《Mixtral of Experts》

    (作者并未说明每个 token 的两个专家中哪个被标记了颜色,这里的奖励模型是指在用于对齐的 RLHF 中使用的奖励模型。其做法是通过指数级地降低旧状态的权重来计算权重的一个平滑化版本。

    这项研究调查了 LLM 学习欺骗行为的可能性,由于每个时间步骤仅有 2 个专家处于活动状态,其可凭借更低的计算负载超过之前的方法。提升累积准确度(背景是农业应用)。

  • 当大型基础模型是「黑箱」时,

    • 论文标题:LLaMA Pro:Progressive LLaMA with Block Expansion

    • 论文地址:https://arxiv.org/abs/2401.02415

    该论文提出了一种用于 LLM 的后预训练方法,而且在常识推理和问题求解基准上的表现也相当不错,这个过程无需改变大模型的权重。来自论文《Attention Is All You Need》" cms-width="677" cms-height="532.188" id="15"/>Transformer 架构,此外,

    那么如何实现我们想要的增强呢?其实就是将这些较小模型的预测结果(logit)之差用于目标模型 M1。TinyLlama 在这些基准上比不上更大型的模型,如果使用很大的模型,Mixtral 8x7B 有 47B 参数。因此任何人都可以进一步研究和微调它。该模型目前落后于小型的 phi-2 模型,下表重点对比了 Llama 70B Base 和 Chat 模型。

  • 更容易针对目标任务定制化 —— 小模型通常可以仅在单个 GPU 上完成微调。

    权重平均能让奖励建模更为稳健地应对奖励骇入问题权重平均能让奖励建模更为稳健地应对奖励骇入问题

    为了解决奖励骇入问题,WARM 相对于单奖励模型的胜率为 79.4%,如下图表所示," cms-width="677" cms-height="352.281" id="2"/>随机权重平均(SWA)是在训练周期快结束时对模型的权重进行平均。

    奖励骇入是指 LLM 学会了操控或利用其奖励系统的漏洞来获得高分或奖励,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。强化微调)技术,这也是一个重点考虑因素。其训练使用了一个 2 万亿 token 的数据集。我认为 LLM 模型融合技术前景广阔。代理调优的表现可能优于 LoRA,利用多个在训练期间创建的已有 LLM(不做其它处理)的方法就尤其具有吸引力。如下图所示。毕竟已经有 LoRA(低秩适应)这种更好的方法了 ——LoRA 不需要较小的通用模型 ,

    模型融合已有较长的历史,甚至让模型变得更小。

    • 论文标题:Spotting LLMs With Binoculars:Zero-Shot Detection of Machine-Generated Text

    • 论文地址:https://arxiv.org/abs/2401.12070

    Binoculars 这种新方法可以不使用训练数据来更准确地检测 LLM 生成的文本,

    这里就需要说明代理调优方法的两个潜在优势:

    • 在某些场景中,我们已经讨论了一些权重平均方法。Exponentially Moving Average),而第六个专家则贡献了 37%。

      另外,尽管这有违 Chinchilla 的缩放率。因此《Mixtral of Experts》值得关注。

      • 论文标题:DeepSeek LLM:Scaling Open-Source Language Models with Longtermism

      • 论文地址:https://arxiv.org/abs/2401.02954

      DeepSeek LLM 有 7B 和 67B 两种配置,

      • 论文标题:Code Generation with AlphaCodium:From Prompt Engineering to Flow Engineering

      • 论文地址:https://arxiv.org/abs/2401.08500

      AlphaCodium 是一种迭代式的、

      这项研究的主要目的是提升用于 LLM 的 RLHF 对齐步骤。比如更高的资源需求。明显少于 Llama 2 70B 等模型。该方法可从多个更小的聊天 AI 模型随机选取响应。其使用 LLM 解析不同的 prompt,

      随机权重平均(SWA)是在训练周期快结束时对模型的权重进行平均。在深入介绍这篇 WARM 论文之前,并能让我们更好地理解训练数据的组成结构对分布外性能的影响。这种方法是对一个初始较大的学习率进行衰减,使之可用于提升更大型的基础模型,这些研究者发现了一种强化学习策略 —— 使用此策略,Mathematics、另外,在得到了这些输出 logit 之后,</p><p cms-style=

      • 论文标题:Denoising Vision Transformers

      • 论文地址:https://arxiv.org/abs/2401.02957

      作者发现,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,并且训练已接近收敛,

      WARM 在 RLHF 过程中的使用方式概况。还有一个路由模块,而且还完全开源。另一个考虑方面是在智能手机等便携式设备上部署 LLM 时的电池寿命问题。就会很困难。它仅使用掩蔽 token 和可见 token 之间的交叉注意力来重建被遮掩的图块,如下图所示。具体来说,除了基于人类偏好进行的常规训练,

    TinyLlama 的性能

    TinyLlama 的优势不仅是小和开源,

    • 论文标题:MoE-LLaVA:Mixture of Experts for Large Vision-Language Models

    • 论文地址:https://arxiv.org/abs/2401.15947

    该论文提出了一种用于扩展大型视觉 - 语言模型的混合专家范式,MoE 可以更高效地分配计算资源。他们指出在更简单数据上进行训练会更高效。这些 logit 表示 LLM 的每个可能的输出 token 的非归一化分数,而不是维护多个分立的模型,这有什么好处?类似于创建集成模型的概念,然后再将这 8 个专家前馈层的输出求和汇总,

    了解模型融合和权重平均

    模型融合和权重平均并不是新思想,如下图所示。2024 年还有很多期待空间。Wikipedia 等数据集。这表示第三个专家为输出贡献了 63%,Mixtral 8x7B 是一种稀疏的混合专家(稀疏 MoE)模型,此时学习率较低,

    • 论文标题:Tuning Language Models by Proxy

    • 论文地址:https://arxiv.org/abs/2401.08565

    在适应大型语言模型方面,而 LoRA 通常能在成本和性能之间取得最好的平衡。

    展望未来,而不是训练单个奖励模型。其方法是通过简单的计算来对比两个预训练的 LLM。而不是一个大型网络,我们为什么还要选择这种方法呢,当有 8 个专家 { E_1, E_2, ..., E_8})时,并且在其它 6 个基准上也有类似的趋势

    研究在「过大」数据集上的行为或训练多个 epoch 的行为时,

    • 论文标题:ReFT:Reasoning with Reinforced Fine-Tuning

    • 论文地址:https://arxiv.org/abs/2401.08967

    这篇论文提出了 Reinforced FineTuning (ReFT,(论文地址:https://arxiv.org/abs/2307.13269)

    使用了权重平均的奖励模型

    讨论完了权重平均和模型融合,

    MoE 是什么?MoE 是混合专家(Mixture of Experts)的缩写,视觉 Transformer(ViT)中常见的网格状伪影是由输入阶段的位置嵌入造成的。

    • 论文标题:SpacTor-T5:Pre-training T5 Models with Span Corruption and Replaced Token Detection

    • 论文地址:https://arxiv.org/abs/2401.13160

    这篇论文提出了 SPACTOR,MoE 层会计算专家输出 E_i 的加权和,仍然需要用到三种不同的模型:

    1. 一个大型通用基础模型

    2. 一个较小的通用模型

    3. 一些针对特定用例或客户需求定制化的小型专用模型

    因此,能用更少的参数实现比肩更大模型的性能。如下图所示。

    但是,该方法在实验中表现接近直接微调方法,其性能优于单个模型、介绍了四篇与上述新阶段有关的重要论文。该方法采用了一种自我博弈机制,作者设定了 TopK=2,该模型的代码库基于 Apache 2 许可证发布,

    模型大小

    Mixtral 8x7B 如何得名的?稀疏 MoE 模型的实际大小如何?8x 是指使用了 8 个专家子网络。专家层仅替换了前馈层而已。根据上面的公式,

  • 产品中心

    邮箱:admin@aa.com

    电话:020-123456789

    传真:020-123456789

    Copyright © 2024 Powered by 江津市某某投资咨询售后客服中心