从泛函视角统一理解动量优化：Heavy-Ball与Nesterov的连续动力学本质

📅 2026/6/22 1:35:26 👤 管理员 👁 次浏览

1. 项目概述当优化算法遇见几何在机器学习和深度学习的模型训练里我们最常打交道的就是优化器。从最基础的随机梯度下降SGD到如今五花八门的自适应优化器核心目标只有一个更快、更稳地找到损失函数的那个“坑底”。但如果你仔细研究过SGD的变种比如经典的带动量的SGDSGD with Momentum或者更精巧的Nesterov加速梯度法NAG你可能会发现一个有趣的现象这些方法在直觉上很好理解——给梯度加个“惯性”让它冲过一些局部的小坑洼或者在更新前先“往前看”一步。然而当我们试图从理论上严格分析它们为什么有效以及它们之间到底有何本质区别时常常会陷入一堆复杂的递归公式和收敛率证明中感觉像是隔着一层毛玻璃在看东西。这个项目标题——“自然梯度下降的动量加速从Heavy-Ball到Nesterov的泛函视角”——恰恰为我们提供了一块擦亮玻璃的布。它指向了一个更高维、更统一的视角。简单来说它不再把优化过程仅仅看作是参数空间里一个点的随机游走而是将其视为一个在函数空间或者说“泛函”空间中的连续演化过程。在这个视角下Heavy-Ball方法也就是我们常说的经典动量法和Nesterov加速法不再是两个独立的、需要分别记忆的算法公式。它们变成了同一个连续动力学方程在不同离散化方案下的产物。这就像我们看动画片原本我们看到的是每秒24张静止的图片离散的迭代步骤而现在我们看到了背后那个连续运动的胶片连续的动力学方程。这个“泛函视角”的强大之处在于它能把很多看似不同的优化技巧统一到一个框架下来理解让我们能更清晰地看到动量项的本质、加速的机理甚至启发我们设计出新的、更高效的优化器。对于任何一个希望深入理解优化算法而不只是调包使用的从业者来说掌握这个视角无异于获得了一张从“技工”到“工程师”的升级门票。2. 核心思路拆解从离散迭代到连续流要理解这个泛函视角我们需要暂时跳出熟悉的“第k步参数等于第k-1步参数减去学习率乘以梯度”这种迭代思维。让我们从头开始搭建这个认知框架。2.1 优化问题的几何本质首先我们面对的优化问题是最小化一个损失函数 L(θ)其中θ是我们的模型参数。在深度学习中L(θ) 通常非常复杂像是一片崎岖不平的高原布满了山谷、鞍点和局部最低点。普通梯度下降的做法是在当前位置沿着最陡的下坡方向负梯度方向走一步。这相当于用当前点的局部线性近似来指导行动。但这里有一个关键的几何假设被忽略了参数空间可能并不是一个平坦的“欧几里得空间”。什么意思呢在欧几里得空间里向量的长度和角度定义是简单且全局一致的。但在神经网络的参数空间里参数的一个微小变化对模型输出也就是损失函数的影响并不是均匀的。有些方向上的移动参数变化很小但输出变化剧烈曲率大有些方向则相反。这意味着参数空间内在的“几何结构”是弯曲的、非均匀的。自然梯度的概念正是为了应对这种非欧几何。它不是在参数空间里直接计算梯度而是在模型输出分布所形成的统计流形上计算梯度然后用一个叫“费雪信息矩阵”的度量张量将流形上的梯度“拉回”到参数空间。这个拉回后的梯度方向考虑了参数空间的局部曲率是真正最速下降的方向。你可以把它想象成在崎岖的山地上最速下降路径不是直线而是一条考虑地形陡缓的曲线。自然梯度下降NGD就是沿着这条曲线走。2.2 动量作为连续时间方程的离散化现在我们引入动量。在离散时间下带动量的SGDHeavy-Ball方法更新规则是 v_{k} β * v_{k-1} - η * ∇L(θ_{k-1}) θ_{k} θ_{k-1} v_{k} 其中v是速度动量β是动量系数通常0.9左右η是学习率。这个公式看起来像是一个物理系统的差分方程。如果我们想象将迭代步长无限缩小让离散的“步”变成连续的“时间”那么这个差分方程就可以对应一个微分方程。具体地通过一些泰勒展开和尺度变换的技巧可以证明Heavy-Ball方法的连续时间极限对应着一个二阶常微分方程ODE通常形式类似于 θ̈(t) γ * θ̇(t) ∇L(θ(t)) 0 这里θ̈是加速度θ̇是速度γ是阻尼系数。这分明就是一个有阻尼的牛顿力学方程质点参数θ在一个势场L(θ)中运动受到与速度成正比的阻尼力。动量项β就对应着这个阻尼系数γ。这个视角一下子就让动量变得无比直观优化过程不再是冰冷的迭代而是一个有物理意义的动力学过程。惯性动量让参数点能够积累动能冲过一些梯度很小平坦但并非最优点区域阻尼则防止它振荡得太厉害最终让它稳定到最低点。2.3 Nesterov加速的“前瞻”奥秘那么Nesterov加速又是什么呢它的离散更新规则看起来有点“绕” v_{k} β * v_{k-1} - η * ∇L(θ_{k-1} β * v_{k-1}) θ_{k} θ_{k-1} v_{k} 注意它计算梯度时不是在当前位置θ_{k-1}而是在一个“前瞻”位置 θ_{k-1} β * v_{k-1}。从离散公式看这像是一个聪明的“预判”。但从连续视角看它同样是上面那个二阶ODE的另一种离散化方案区别在于对梯度项∇L(θ(t))的处理时间点不同。Heavy-Ball方法用的是“显式”或“前向”欧拉离散化在时间步开始时就计算梯度。而Nesterov方法用的是一种“半隐式”或“中点”离散化它相当于在时间步的中间某个点计算梯度。这种离散化上的细微差别带来了巨大的性能提升。在数学上可以证明对于凸光滑函数Nesterov的这种离散化方式能达到O(1/k²)的最优收敛率而Heavy-Ball方法在理论上通常只有O(1/k)。这解释了为什么NAG在实践中常常比经典动量法更稳定、收敛更快。它不是魔法只是对同一个物理过程更精确的数值模拟。注意这里说的“更精确”是对于优化这个特定问题而言的。数值分析中没有绝对优越的离散方法只有针对特定微分方程和稳定性要求更合适的方法。Nesterov方法恰好找到了一个对优化ODE特别有效的离散格式。3. 泛函视角下的统一框架理解了Heavy-Ball和Nesterov都源于同一个连续ODE后我们就可以建立更统一的泛函视角了。这里的“泛函”指的是将整个优化轨迹看作一个整体而不仅仅是每一步的迭代点。3.1 将优化视为轨迹优化在泛函视角下我们不再仅仅关心最终找到的最优点θ*而是关心参数从初始点θ0演化到θ*的整条路径θ(t)。我们的目标可以重新表述为找到一条路径使得某个关于整条路径的“作用量”最小化。这个作用量通常由两部分组成动能项和势能项。动能项惩罚路径变化太快与动量相关势能项就是沿路径的损失函数积分。通过变分法一种处理泛函极值的方法最小化这个作用量导出的欧拉-拉格朗日方程正好就是我们前面提到的那个二阶阻尼牛顿方程这意味着带动量的优化算法本质上是在求解一个轨迹优化问题。这个框架的威力在于统一性Heavy-Ball和Nesterov只是这个轨迹优化问题在不同数值积分方案下的解。可扩展性我们可以修改“作用量”的形式。比如加入不同的正则化项就可以导出带有自适应阻尼、或者具有某种特定路径约束的新优化算法。理论分析在这个框架下算法的收敛性分析可以借助成熟的动力系统和数值分析理论变得更加清晰和强大。3.2 自然梯度的融入现在我们把自然梯度的思想也融入这个框架。回忆一下自然梯度是用费雪信息矩阵G(θ)来重新度量参数空间。在连续动力学方程中这意味着我们的“质量”或“惯性”不再是各向同性的。动力学方程变为 G(θ(t)) * θ̈(t) γ * θ̇(t) ∇L(θ(t)) 0 或者更常见地写成在预处理坐标系下的形式。这里的G(θ(t))就像一个位置相关的质量矩阵。在曲率大的方向G值大惯性大加速慢在曲率小的方向惯性小加速快。这完美符合我们的直觉在陡峭的峡谷我们应该小心慢行防止振荡在平坦高原我们可以加速前进。将自然梯度与动量加速结合就得到了“自然梯度动量法”。它在参数空间的几何结构被正确考虑的前提下引入了物理惯性有望在复杂的深度学习损失地形上实现更快速、更稳定的下降。一些现代优化器如K-FAC自然梯度的近似算法与动量的结合就可以从这个视角得到很好的诠释。3.3 离散化方案的实践选择从连续ODE到可执行的算法关键一步是离散化。这里有几个重要的实践考量时间步长学习率η在连续方程中时间t是连续的。离散化时我们需要选择一个时间步长Δt它直接对应于学习率η。但注意η并不是简单的Δt。从差分方程推导中可以看到η通常与Δt²成正比。这就是为什么在调参时学习率的影响往往比动量系数更敏感、更非线性。改变学习率相当于改变了模拟动力学过程的时间分辨率。阻尼系数动量系数β阻尼系数γ在离散化后与动量系数β的关系通常是 β 1 - γΔt。这给出了β的一个理论范围。当Δt很小时β接近1这意味着高动量、低阻尼系统振荡会更多。在实践中我们通常固定β0.9, 0.99等值这实际上隐含地假设了我们问题对应的连续系统有一个特定的阻尼系数和时间步长。离散格式的选择显式欧拉对应朴素SGD最简单但稳定性差需要很小的学习率。显式/前向欧拉对应Heavy-Ball加入了速度项稳定性稍好但对刚性方程曲率变化大仍可能不稳定。半隐式/中点法对应Nesterov用“前瞻”梯度提高了稳定性允许使用更大的有效步长从而加速收敛。完全隐式方法数值上最稳定但每一步都需要求解一个非线性方程涉及梯度在未知未来点的值计算代价大实践中很少直接用。在深度学习优化中我们几乎总是在“计算效率”和“数值稳定性/精度”之间做权衡。Nesterov加速正是在这个权衡点上找到了一个甜点它只比Heavy-Ball多一次梯度计算在“前瞻点”却换来了显著的稳定性和收敛速度提升。实操心得当你使用Adam、Nadam等更复杂的优化器时可以试着理解它们背后的“连续原型”。例如Adam可以看作是在一个自适应预处理缩放的坐标系下结合了动量和自适应学习率。这个泛函视角能帮助你在调参时更有方向比如理解beta1一阶矩衰减本质上是动量项它的设置与优化轨迹的平滑度有关。4. 算法实现与关键细节理论很美妙但最终要落地为代码。我们来实现一个统一的框架来展示如何从连续视角出发得到Heavy-Ball和Nesterov算法。4.1 连续动力学方程的数值积分我们假设损失函数L(θ)和其梯度∇L(θ)是可计算的。核心是数值积分下面这个二阶ODE这里我们先考虑欧几里得空间暂不引入自然梯度 θ̈ γ θ̇ ∇L(θ) 0我们引入速度变量 v θ̇将其化为一阶方程组 θ̇ v v̇ -γ v - ∇L(θ)现在我们用一个步长h对应学习率η的平方根量级来离散时间。令t_k k * h θ_k ≈ θ(t_k) v_k ≈ v(t_k)。方案A显式欧拉Heavy-Ball风格这是最直接的离散化 v_{k} v_{k-1} h * (-γ v_{k-1} - ∇L(θ_{k-1})) θ_{k} θ_{k-1} h * v_{k} 经过整理并令 β 1 - γh η h²我们得到熟悉的Heavy-Ball更新 v_{k} β * v_{k-1} - η * ∇L(θ_{k-1}) θ_{k} θ_{k-1} v_{k}方案B半隐式欧拉Nesterov风格Nesterov方法对应一种对梯度项进行“中点”评估的离散化。一种常见的推导方式如下首先用一个中间速度更新位置 θ_{mid} θ_{k-1} (β * h) * v_{k-1} // 这就是“前瞻”位置然后用这个中点位置的梯度来更新速度 v_{k} v_{k-1} h * (-γ v_{k-1} - ∇L(θ_{mid})) 最后用新速度更新位置 θ_{k} θ_{k-1} h * v_{k} 同样代入 β 1 - γh η h²并稍作变形注意这里h*v_{k-1}项与v_{k-1}的关系就能得到标准Nesterov形式 v_{k} β * v_{k-1} - η * ∇L(θ_{k-1} β * v_{k-1}) θ_{k} θ_{k-1} v_{k}下面是一个Python示例展示了如何在简单的二次函数上实现这两种离散化并观察其轨迹差异。import numpy as np import matplotlib.pyplot as plt def loss(theta): 一个简单的二次损失函数最小值在(1,1) return 0.5 * (theta[0] - 1)**2 2.0 * (theta[1] - 1)**2 def grad(theta): 梯度 return np.array([theta[0] - 1, 4.0 * (theta[1] - 1)]) def optimize_with_dynamics(discrete_schemeheavyball, max_iter100, h0.1, gamma1.0): 使用连续动力学ODE的离散化进行优化 discrete_scheme: heavyball 或 nesterov h: 时间步长 (与学习率相关) gamma: 阻尼系数 theta np.array([-3.0, 3.0]) # 初始点 v np.array([0.0, 0.0]) # 初始速度 beta 1 - gamma * h eta h**2 path [theta.copy()] for i in range(max_iter): if discrete_scheme heavyball: # Heavy-Ball / 显式欧拉 grad_current grad(theta) v beta * v - eta * grad_current theta theta v elif discrete_scheme nesterov: # Nesterov / 半隐式欧拉 theta_mid theta beta * v # 前瞻位置 grad_mid grad(theta_mid) v beta * v - eta * grad_mid theta theta v path.append(theta.copy()) return np.array(path) # 运行优化 path_hb optimize_with_dynamics(heavyball, max_iter50, h0.3, gamma1.2) path_na optimize_with_dynamics(nesterov, max_iter50, h0.3, gamma1.2) # 绘制等高线和优化路径 x np.linspace(-4, 4, 400) y np.linspace(-2, 4, 400) X, Y np.meshgrid(x, y) Z 0.5 * (X - 1)**2 2.0 * (Y - 1)**2 plt.figure(figsize(12, 5)) plt.contour(X, Y, Z, levels30, alpha0.5) plt.plot(path_hb[:, 0], path_hb[:, 1], o-, labelHeavy-Ball, markersize4, linewidth1.5) plt.plot(path_na[:, 0], path_na[:, 1], s-, labelNesterov, markersize4, linewidth1.5) plt.scatter([1], [1], cred, s100, marker*, labelOptimum (1,1)) plt.xlabel(θ1) plt.ylabel(θ2) plt.title(Optimization Paths: Heavy-Ball vs Nesterov (from ODE discretization)) plt.legend() plt.grid(True, alpha0.3) plt.axis(equal) plt.show()运行这段代码你可以清晰地看到两条不同的收敛路径。Nesterov的路径通常振荡更小能更直接地冲向最优点尤其是在损失函数在不同方向上曲率差异很大时本例中θ2方向的曲率是θ1方向的4倍这种优势更为明显。4.2 引入自然梯度预处理动力学现在我们加入自然梯度。假设我们可以计算或近似得到费雪信息矩阵G(θ)。连续动力学方程变为 G(θ)θ̈ γ θ̇ ∇L(θ) 0 同样化为一级系统 θ̇ v v̇ -G(θ)^{-1}(γ v ∇L(θ))离散化这个方程需要小心因为G(θ)是依赖于位置的。一个实践中的常用简化是假设在一个迭代步内G(θ)变化不大或者使用上一步的G(θ_{k-1})来近似。采用半隐式Nesterov风格的离散化我们可以得到自然梯度Nesterov加速算法的一个版本计算“前瞻”位置θ_mid θ_{k-1} β * v_{k-1}计算自然梯度方向d G(θ_{k-1})^{-1} * ∇L(θ_mid) 这里用θ_{k-1}的G近似更新速度v_k β * v_{k-1} - η * d更新参数θ_k θ_{k-1} v_k关键细节在实际的深度学习框架中如TensorFlow或PyTorch我们不会直接求逆G(θ)因为它的维度是参数数量的平方巨大无比。取而代之的是使用近似方法如K-FACKronecker-factored Approximate Curvature它假设权重矩阵的费雪信息矩阵可以近似为两个小矩阵的克罗内克积从而高效地计算自然梯度方向。动量项可以直接加在这种近似自然梯度更新之上。4.3 超参数的经验性调参指南从这个连续视角我们可以重新解读超参数学习率 (η)它正比于时间步长h的平方。h越小学习率越小离散化越精确但收敛越慢。h太大学习率太大离散误差会导致算法不稳定甚至发散。在曲率大的区域峡谷需要更小的h学习率来保持稳定性。动量系数 (β)它由 β 1 - γh 决定。γ是阻尼系数。固定β0.9意味着我们假设了γh0.1。如果增大了学习率h理论上应该稍微减小β以保持γh不变即维持相同的阻尼效果。在实践中一个常见的组合是较大的学习率配合稍小的动量如0.9 - 0.85以补偿增大的离散化误差。阻尼系数 (γ)在连续方程中它控制能量耗散的速度。γ太大系统过阻尼收敛慢但稳γ太小系统欠阻尼会在最优点附近振荡。在深度学习中我们通常不直接设置γ而是通过β和η间接控制。一个实用的调参流程是先不使用动量β0找到一个能稳定训练的学习率η。固定这个η逐渐增加β如0.5, 0.9, 0.95观察训练损失下降曲线。选择那个能让损失平稳快速下降且最终不振荡的β。如果想进一步提速可以尝试在增加η的同时略微减小β进行协同搜索。5. 常见问题与实战排坑理解了原理在实战中仍然会遇到各种问题。下面是一些典型场景和解决思路。5.1 振荡与发散离散化的不稳定性问题描述训练初期或中期损失值剧烈振荡甚至突然变成NaN发散。根因分析从连续视角看这通常是时间步长h学习率η过大导致显式离散格式不稳定。在损失地形曲率很大的区域非常陡峭的峡谷壁梯度很大相当于动力学方程中的“力”很大。过大的步长会导致数值积分误差爆炸参数更新“冲过头”跑到损失极高的区域。排查与解决首要检查学习率这是最可能的原因。立即大幅降低学习率例如除以10看振荡是否停止。检查动量系数如果学习率已经很小还在振荡可能是动量β太高导致“惯性”太大。尝试降低β值例如从0.99降到0.9。使用梯度裁剪这是一种工程上的稳定化技巧。它对梯度向量的范数设置一个上限相当于在动力学方程中增加了一个最大作用力限制防止因个别mini-batch的异常梯度导致更新步长过大。在PyTorch中非常简单torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm1.0)考虑自适应优化器Adam等优化器内置了按坐标缩放的学习率能自动适应不同方向的曲率相当于在每个维度上使用了不同的时间步长对于解决某些方向的刚性振荡问题很有效。启用Nesterov动量如果你在用SGD with Momentum尝试切换到Nesterov动量。它的半隐式特性使其数值稳定性更好往往能容忍比Heavy-Ball稍大的学习率。5.2 收敛后期在最小值附近徘徊问题描述损失下降到一定程度后不再下降而是在一个值附近小幅波动无法达到更低的训练损失。根因分析在连续系统中这是由于阻尼系数γ不够大即动量β太接近1导致系统在势能井底部还有残余动能做衰减振荡。在离散系统中还可能因为学习率η已经小于随机梯度噪声的强度优化过程被噪声主导。排查与解决学习率衰减这是标准做法。在训练后期逐步减小学习率η即减小时间步长h可以让数值积分更精确最终稳定在更深的极小点。常用的策略有Step Decay、Cosine Annealing等。动量衰减或清零一种进阶技巧是在学习率衰减的同时也缓慢减小动量系数β增加阻尼γ。更激进的做法是在训练的最后阶段完全关闭动量β0使用纯SGD进行精细调优。检查Batch SizeBatch Size越小梯度估计的噪声越大。后期波动可能只是噪声。可以尝试在训练末期使用更大的Batch Size或梯度累积来获得更精确的梯度方向。从泛函视角理解后期的徘徊可以看作是优化轨迹在最小值附近的“探索”。有时轻微的徘徊有助于逃离非常尖锐的局部极小点。如果验证集性能已经稳定不一定需要强行消除这种微小波动。5.3 自然梯度近似的陷阱问题描述当尝试实现或使用结合了自然梯度的优化器如K-FAC with Momentum时发现效果不如预期甚至比普通SGD更差。根因分析近似误差过大K-FAC等近似方法在深度很大或激活函数非线性强时近似可能不准确给出的“最速下降”方向其实是错的。迭代频率问题费雪信息矩阵或其逆的估计需要数据通常在一个迭代步内无法精确计算。如果更新太频繁估计不准如果更新间隔太长矩阵已经过时。与动量的耦合自然梯度已经改变了参数空间的几何。在此基础上加动量其物理意义和离散化方式需要重新考量简单照搬欧几里得空间的方法可能不协调。实战建议从小规模开始验证先在小型网络如MLP on MNIST上测试自然梯度优化器的实现确保其基本方向正确能收敛。谨慎设置更新频率不要每步都更新费雪信息矩阵的估计。可以每100或1000步更新一次并在更新之间使用动量。将矩阵估计和参数更新异步进行。使用阻尼Damping在计算自然梯度方向G^{-1} * g时实际上计算的是(G λI)^{-1} * g其中λ是阻尼系数。这有两个作用一是数值稳定防止G接近奇异二是实际上在自然梯度和普通梯度之间做了一个插值。λ是一个非常重要的超参数需要仔细调整。动量系数的调整由于自然梯度本身已经包含了曲率信息相当于有了自适应的“步长”因此与之配合的动量系数β可能需要比在普通SGD中设置得小一些以防止振荡。5.4 不同优化器间的切换策略问题描述在一个训练任务中能否前期用Adam快速下降后期切换成SGD with Nesterov来获得更好的泛化性能根因分析Adam等自适应优化器在训练早期能快速下降但因其自适应学习率机制在训练后期可能无法收敛到最尖锐的极小点这被认为可能影响泛化能力。SGD with Nesterov则被认为更可能找到更“平坦”的极小点从而泛化更好。切换策略与实操时机选择通常是在训练损失平稳下降一段时间后或验证集精度提升缓慢时进行切换。例如训练总epoch的70%-80%之后。参数转换切换时最大的问题是状态转换。Adam维护了每个参数的一阶矩动量和二阶矩估计。直接丢弃这些状态用零状态启动SGD会导致优化轨迹出现断裂损失可能突然上升。动量继承可以将Adam的一阶矩估计m_t经过适当的缩放后作为SGD with Momentum的初始动量状态。因为m_t本质上是梯度的指数移动平均与动量v类似。注意Adam的m_t经过了偏差校正而标准的动量没有需要小心处理。学习率重置切换到SGD后需要重新设置一个学习率。一个经验法则是使用Adam最终学习率的10倍到100倍作为SGD的初始学习率因为SGD没有逐参数的自适应缩放。一个简单的PyTorch示例框架# 假设我们已经用Adam训练了一段时间 optimizer_adam 是Adam优化器 # 我们想切换到带动量的SGD (Nesterov) # 1. 获取当前模型参数 model_params [p for p in model.parameters() if p.requires_grad] # 2. 创建SGD优化器设置较大的初始学习率并启用Nesterov optimizer_sgd torch.optim.SGD(model_params, lr0.1, momentum0.9, nesterovTrue) # 3. 可选尝试继承动量状态这是一个启发式方法不一定总是有效 # 将Adam的动量状态一阶矩拷贝到SGD的动量缓冲区 for param_group_adam, param_group_sgd in zip(optimizer_adam.param_groups, optimizer_sgd.param_groups): for p_adam, p_sgd in zip(param_group_adam[params], param_group_sgd[params]): if p_adam in optimizer_adam.state and exp_avg in optimizer_adam.state[p_adam]: adam_momentum optimizer_adam.state[p_adam][exp_avg] # 这里直接赋值也可以考虑缩放。注意SGD的动量缓冲区初始是0。 if momentum_buffer not in optimizer_sgd.state[p_sgd]: optimizer_sgd.state[p_sgd][momentum_buffer] adam_momentum.detach().clone() # 4. 后续训练使用 optimizer_sgd并配合学习率调度器 scheduler_sgd torch.optim.lr_scheduler.CosineAnnealingLR(optimizer_sgd, T_max后期epoch数)这个从连续动力学和泛函视角理解优化算法的框架其价值远不止于解释Heavy-Ball和Nesterov。它为我们提供了一个强大的思维工具。当你下次看到一个新的优化算法时可以试着问它对应的连续时间方程是什么它采用了哪种离散化方案它的“质量矩阵”或“阻尼”是如何设计的通过回答这些问题你能更快地抓住算法的本质更自信地进行调参和算法选择甚至激发出改进或创造新优化器的灵感。优化不再是黑盒魔法而是可控、可析、可设计的动力学过程。

从泛函视角统一理解动量优化：Heavy-Ball与Nesterov的连续动力学本质

相关新闻