来源:DeepTech深科技
近日,北京大学本科校友、美国麻省理工学院刘子鸣博士和所在团队提出了神经热力学定律(NTL,neural thermodynamic laws),这是一个会在大模型训练中自然涌现的热力学概念和定律,也是一个能为大模型训练动态提供全新洞见的框架。
对于本次成果刘子鸣在 X 上写道:“叠加态和神经标度律是语言模型中的两大神奇现象。本次新研究表明,它们其实是同一枚硬币的两面!在实践中,人们可以通过‘负’权重衰减来控制叠加态,从而控制扩展。”他还表示:“AI 终究是自然的(naturAl),而非人工的(Artificial)。”
为大模型架起通往物理学的桥梁
总的来说,本次成果的主要贡献如下:
首先,研究团队进行了快慢动力学分解的数学表述。在 river–valley loss landscape 中,他们将训练过程解耦为两个动力学过程:第一个是快速动态过程,即沿 valley 方向呈现固定学习率 η 下的平衡态或衰减学习率下的退火态;第二个是慢速动态过程,即沿 river 方向的漂移运动。
其次,研究团队打造了一个可被精确求解的 river–valley loss landscape 简化模型,该模型能够同时捕捉快速动态和流动动态,能为训练行为和最优学习率调度提供解析解。
再次,研究团队证明了本次成果与大模型的实证关联性。具体来说他们证明来自该简易模型的洞见能够很好地推广到真实大模型的训练之中,并能为学习率调度提供直观且有效的启发。
同时,神经网络训练与热力学之间的二重性,为深入理解深度学习提供了科学基础,这为大模型架起了一座通往物理学的桥梁。
结合该团队目前所知道的他们认为学习率主要有三个作用:控制温度、控制熵力、控制时间尺度。本次也研究证明大模型训练的诸多方面,都能通过热力学概念进行解析性理解。未来,该团队将基于本次获得的科学见解设计算法,以便提高大模型训练的效率。
图 | 训练动态与热力学的关联(来源:arXiv)大型神经网络与热力学系统的惊人相似
就研究过程来说,如前所述该团队在本次研究中提出了一款 river–valley loss landscape 简化模型。与此同时,他们还分析了在随机梯度下降(SGD,Stochastic Gradient Descent)和符号梯度下降(SignGD,Sign Gradient Descent)下的训练动态。
需要说明的是,river–valley loss landscape 是一个用于描述神经网络优化过程中损失函数拓扑结构的比喻性概念。
其中:
river 指的是低维的、平缓的优化路径,它的梯度较小但是方向稳定,对应着参数更新的高效通道。
valley 指的是被陡峭区域包围的平坦区域,对应着局部最小值。
loss Landscape 指的是神经网络参数空间中损失函数值的几何分布,反映了不同参数组合下的模型表现。
大型神经网络与热力学系统有着惊人的相似之处,两者都涉及大量的自由度,并表现出随机动力学特性。因此,此前人们已经探索了神经网络与热力学之间的联系。然而,这些研究主要集中在具有相对简单、易于理解 loss landscape 的经典机器学习模型上。
前不久,有一支研究团队揭示了大模型的复杂 loss landscape 特征,这种被称为 river-valley 的结构由两类方向构成:平坦缓慢的 river 方向与陡峭快速的 valley 方向。直观来讲,快速动态会在 valley 内快速达到平衡态,而慢速动态则沿会 river 方向逐渐演化,并会受到快速动态的精细调节。
这种快慢分离的机制使得人们能够独立处理 valley 方向与 river 方向的动力学,从而得到可解析求解的结果。具体来说:快速动态呈现出热平衡与退火特性,而慢速动态则表现为漂移过程。
在定性层面以及在某些情况下的定量层面,这些解析解与经典热力学概念和定律存在相似性。
大模型的 loss landscape 呈现出典型的 river-valley 结构特征。而本次研究的目标是通过神经热力学定律的理论框架,将上述直观认识形式化。因此,本次成果与大模型训练有着直接相关性。
研究人员在论文中写道,这种优化理论与热力学之间的二元性,为理解和评估现代优化器提供了全新的理论视角。(需要说明的是,现代优化器是一种专门为神经网络训练设计的高级梯度下降算法,旨在通过最小化损失函数来提升模型的性能,是训练复杂 AI 模型的关键技术。)
于理论层面,在 river–valley loss landscape 的假设之下,该团队证明关键热力学量以及经典热力学原理,会从大模型的训练动态中自然涌现。
于实践层面,这一研究为设计学习率调度策略提供了直观的指导原则。(需要说明的是,学习率调度策略是深度学习训练的核心调参技巧之一,其本质是通过动态调整更新步长,在快速搜索解空间与精细调整最优解之间取得平衡。)
大模型训练动态与热力学之间的二元性,不仅在概念和理论上具有深刻意义,更为学习率调度等实践设计提供了实质性的指导。
在大模型预训练中,一种常用的学习率调度策略是预热-稳定-衰减(WSD,warmup-stable-decay)。根据以往文献可知:稳定阶段对应于沿 river 方向的运动,并伴随着 valley 方向的波动;而衰减阶段则会抑制 valley 方向的变化。
正是在此启发之下,该团队引入了基于 river–valley loss landscape 的简化模型。这一模型不仅具有解析可解性,还能自然地诠释为热力学系统,并在实际大模型训练动态中展现出高度的实证一致性。
基于快速动态和慢速动态之间的时间尺度分离特性,研究团队将总损失函数 ℓ 分解为两个部分:快部分 ℓf 和慢部分 ℓs,从而为构建河谷景观的简化模型带来了启发。
在固定学习率的情况之下,快速动态会收敛到一个稳态分布,而这和热平衡状态是类似的。当学习率逐渐衰减时,分布状态会相应演化,这一过程类似于退火现象。此外,快速动态会对慢速动态施加一种有效的熵力作用,这与物理学中的熵力现象具有相似性。
值得注意的是,学习率 η 在所有这些现象中都起着核心作用。通过阐明学习率复杂且有时相互矛盾的作用机制,研究团队提出了一套直观高效的学习率调度设计准则。
相比此前基于经验或基于现象开展大模型优化研究,尤其是优化学习率调度设计的研究成果来说,本次成果的表征更加侧重于机制性研究。
目前,相关论文以《大模型训练中的神经热力学定律》(Neural Thermodynamic Laws for Large Language Model Training)为题发在 arXiv[1]。
图 | 相关论文(来源:arXiv)另据悉,刘子鸣博士师从于麻省理工学院教授马克斯·泰格马克(Max Tegmark),主要研究 AI 与物理科学的交叉领域,他将自己的研究方向分为 Science of AI、Science for AI 和 AI for Science。目前,他正在寻找博士后职位。
参考资料:
pdf/2505.10559
ZimingLiu11
排版:刘雅坤
0 条