亚当从稳定,更快的LLM培训中以光谱原则开头的
作者:365bet官网 发布时间:2025-07-16 13:01
Zeju Qiu和Tim Z. Xiao是Max和Maximilian Dax的博士生,而Simon Buchholz和Maximilian Dax是Max,Max和Maximilian Dax的博士后同事。孔。随着大型语言模型(LLM)促进人工智能领域的创新进步,如何实现高效,稳定和超级伟大的模型一直是该领域中最具挑战性的核心问题之一。为了回答这个重要的问题,研究人员提出了一种基于第一原则的新方法:诗人(通过正交平等的转变修复培训)。该方法旨在通过修复优化策略提高第一个原理培训的效率和稳定性。论文:repa仪表llm培训页面通过正交等效变换:https://spherelab.ai/poet/arxiv:https://wwwww.arxiv.org/abs/2506.080018001poet:UIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLE EQUIBLE EQUIBLEN EQUIBLEN EQUIBLE EQUIBLEN EQUIBLEN EQUIBLE EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equiblen Equi Equi。 EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBLEN EQUIBBLEN EQUIBBLEN EQUIBBLEN EQUIBBLEN EQUIBBLEN EQUIBBLEN EQUIBBLEN EQUIBBLEN EQUIBBLEN EQUIBBLEN EQUIBBLEN EQUIBBLEN EQUIBBLENUibblen Equiben Equi Equi修复每个神经元,并引入两个可以学习的正交矩阵和一个固定的随机权重矩阵。这种方法严格保持训练期间的奇异价值分布,当然是低球能量,这是诗人效果的核心来源ESS。诗人提供了一种新的范式,该范式通过对奇异值的不变性和最小能量超球进行建模来结合训练大型模型的物理解释性和概括能力。该方法密切保持重量矩阵的光谱结构,因此不仅可以稳定优化过程,而且还显着改善了模型的广义性能。为了考虑计算和实用性的效率,研究人员已经开发了有效的近似算法,以使诗人可以在超大的神经元网络培训中公开。实验结果表明,该方法在大规模语言模型的训练中表明了出色的性能和可伸缩性。诗人研究的三个阶段:左派。中角;正确减少的价值和验证。光谱属性和概括事实上的训练大型语言模型的标准是直接启动使用ADAM Optimizer吃了重量矩阵。这种方法易于实施,但是它通常在计算上很昂贵,并且随着模型量表的增加,其复杂性迅速增加。此外,此方法对超参数非常敏感,需要进行精细的调整以确保稳定的训练收敛。更重要的是,即使训练损失有效地最小化,该模型的广义性能也可能很差。为了减轻此问题,本文档提出了各种正规化和重量标准化的技术。它的核心目的通常是明确或隐式改善重量矩阵的光谱结构(即单数值分布)。从直观的角度来看,权重矩阵的光谱标准(最大奇异值)与柔软度和概括模型的能力密切相关,因为它解释了输入向量扩增的上限。通常,人们认为光谱也不MS(这意味着轻度转化)通常有助于改善概括的性能。这种意见导致越来越多的研究在光谱特征的精细控制方面发挥作用。理论研究还表明,如果可以有效地限制权重矩阵的光谱结构,则可以正式提供模型概括的保证。更新频谱节省的重量以实现有效的重量谱控制,从而避免了上述限制。在本文中,我们提出了一种基于间接学习权重矩阵的正交转换的分发培训算法。具体而言,诗人将重量矩阵修复到一个随机初始化的重量矩阵,并且是两个明显的正交矩阵。在训练过程中,诗人不会直接优化重量矩阵,而是保持随机初始化矩阵而没有修改,并通过学习正交矩阵的总和来对其进行转换。这种分发策略允许严格维护独特向量的灵活调整,从而实现了频谱维护的重量更新。用于调用单数值训练模型的相同重量矩阵。左图显示了遵循大规模语言模型的传统实践(使用ADAMW的直接优化)的Astandard培训。正确的图显示了一位使用本文档中提出的近似方法来支持大型LLM训练的诗人。诗人的奇异值仅具有微小的变化(几乎微不足道),这主要是由于数值和近似误差所致。奇异值光谱的训练动力学受到MON [4]的启发,研究人员分析了Adamw,Mon和诗人的奇异价值。您可以计算训练期间在不同迭代点训练的模型的SVD熵。该指标用于衡量奇异值的多样性。熵值越大,越均匀且越丰富光谱分布是。 [4]与ADAMW相比,MON的出色性能归因于最富有的光谱分布,通过重量矩阵的更新。如下图所示,由于等效的正交转换,诗人在整个训练过程中保持了高光谱多样性。诗人的方法具有两个基本优势。正交有效的光谱控制转换不会改变权重矩阵的唯一值,这使诗人可以与重量光谱与整个训练过程的随机初始化矩阵一致。借助适当的初始化方案,诗人可以直接限制单数值的分布,以避免LLM标准训练后过度的单数值。为了进一步增强算法效应,研究人员提出了两种新的初始化策略:标准化高斯初始化(标准化高斯镜头和均匀的光谱初始化离子确保生成的重量矩阵限制了奇异值。诗人产生方法的计算超载很高,但是诗人矩阵的灵活性很高,但是矩阵本身的方法为有效和鳞状的训练提供了空间。取决于诗人矩阵的关键问题的关键问题。优化,本文提出了两种方法方案:随机原始优化:在几个原始的正交矩阵中分解一个大型正交矩阵,参数较少,并且有效地对“合并和重新授权”的策略有效。凯利(Kayley)的正交性,以较低的计算成本保持正交性,并借助“融合和再生”策略来抑制错误的积累。在本文档中对火焰体系结构进行了审核,我们在火焰变压器(60m,130m,350m,1.3b参数)中进行了几个尺度的诗人进行预审前实验。所使用的数据集是源自普通爬行清洁的Web语料库,可广泛用于训练大型语言模型。然后,报告了验证和学员参数的混淆。即使这样,具有B = 1/2的配置的诗人也可以克服表演中的ADAMW,包括ADAMW作为抽样预算,记忆的参数和复杂性,完全随机的SPO(随机原始原始优化),成功地分离了权重矩阵标度参数的复杂性。较低的B值显着提高了诗人参数的效率,但是收敛速度降低,从而为用户提供了效率和速度之间的灵活补偿。相反,随机B的参数的复杂性Lock SPO与矩阵(M+N)的大小成正比,这使其比ADAMW更可扩展(需要MN可容纳参数)。关于记忆的使用,只要正确确定了B预算,两位诗人的变化就可以远远超过ADAMW。以下是对内存的参数和复杂性的详细比较。 PASS TRAINING ALGORITMO1: Use initialization of gaussian initialization standardized to the weight matrix to: Step 2: The orthogonal matrix initializes a complete random spo (totally probabilistic spo): Use a set of random sampling index and a CNP (Cayley - parameterrizar neummannparamet elimination. Both initiated with a matrix of a unit. Random sampling sampling is also parameterized to CNP和CNP矩阵初始固定,然后进行标准化。每层的神经元词[2,3]表明,满足正交限制的训练过程保持了这种超球能量,而无需在训练过程中变化,因此,特征E。通过避免概括可以提高概括的性能。归一化高斯初始化下的诗人可以同时在培养基和各向同性的高斯初始化条件下同时维持能量和独特的值。诗人可以同时获得光谱和能量维持训练。此功能对标准化高斯初始化的最佳性能提供了理论上的解释(有关详细测试,请参见附录B)。诗人的训练机制是对诗人的作战机制的详细理解的分析。使用矢量调查分析正交矩阵的学习动力学。 PA接近的是修改随机生成的单位向量。它是为了计算相似的相似性并评估正交矩阵总和的演变。追踪可以在训练过程中学习的七个正交矩阵的COSENA相似性之后,学习过程可以分为tHree阶段(见图1)。锥锥搜索阶段从1(即单位矩阵)逐渐减小,并收敛到[0.60,0.65]。这种现象在所有正交矩阵中都是一致的,并表明它被分配给原始方向附近的狭窄锥形壳。在此间隔中,稳定学习阶段(在稳定的音乐会外壳中学习)的相似性不再那么出色,但是该模型开始进入稳定的学习期。余弦值往往是稳定的,但是验证混乱仍然线性下降。随着学徒rateaje逐渐崩溃到零,最终的调整逐渐降低,降低了学习速度并最终停止。您可以在文档附录中找到更详细的讨论和经验结果。
下一篇:没有了
电话
020-66888888