ICML 2025 | CoTo:让LoRA训练「渐入佳境」,模型融合、剪枝样样精通

今日霍州(www.jrhz.info)©️

本文第一作者庄湛,香港城市大学和南方科技大学联合培养博士生,研究方向是迁移学习、扩散模型、大模型微调等。本文通讯作者魏颖,浙江大学「百人计划」研究员,博士生导师,研究方向包括持续学习、迁移学习、组合泛化以及在科学领域中的应用等。通讯作者张宇,南方科技大学副教授,研究方向包括深度学习、多任务学习、迁移学习、元学习以及在计算机视觉和自然语言处理方面的应用。

还在为 LoRA 训练不稳定、模型融合效果差、剪枝后性能大降而烦恼吗?来自香港城市大学、南方科技大学、浙江大学等机构的研究者们提出了一种简单的渐进式训练策略,CoTo,通过在训练早期随机失活一部分适配器,并逐渐提高其激活概率,有效缓解了层级不均衡问题,并显著增强了模型在多任务融合和剪枝等操作上的鲁棒性和有效性。该工作已被机器学习顶会 ICML 2025 接收。

今日霍州(www.jrhz.info)©️

  • 论文标题:Come Together, But Not Right Now: A Progressive Strategy to Boost Low-Rank Adaptation
  • 论文链接:https://openreview.net/forum?id=Zha2m39ZoM
  • 代码仓库:https://github.com/zwebzone/coto
  • 官网海报:https://icml.cc/virtual/2025/poster/44836

常规 LoRA 训练的隐藏缺陷

参数高效微调技术已成为预训练大模型在下游任务应用的关键技术。然而,尽管 LoRA 如此成功,它依然面临着一些棘手的问题:

1. 「惰性训练」(Lazy Training):LoRA 的优化过程常常会陷入初始化点附近的次优解,限制了模型的泛化能力。

2. 层级不平衡:在训练中,梯度更新往往集中位于模型的顶层适配器,导致底层适配器训练不足,整体性能受限。

3. 下游操作困难:上述问题使得多个 LoRA 模型的融合和剪枝等下游操作变得非常困难,效果常常不尽人意。

CoTo 策略:何不让 LoRA 「渐入佳境」?

为了解决这些挑战,研究者们提出了 CoTo,其核心思想非常简洁直观:在训练初期,不必让每一层的训练 「一拥而上」,而是让 LoRA 适配器 「循序渐进」 地参与训练。具体来说,CoTo 采用了一种渐进式的激活策略:

  • 训练初期:以一个较高的概率随机 「失活」 一部分 LoRA 适配器。这迫使模型在更新时不能过分依赖某几层,从而让梯度更均匀地流向所有层级,鼓励模型探索更广阔的参数空间。
  • 训练中后期:线性地提高适配器的激活概率,直到所有适配器都完全参与训练,回归到标准的微调模式。

这种 「先抑后扬」 的策略带来了诸多好处:它不仅促进了层级间的均衡优化,还显著提升了不同随机种子训练出的模型之间的线性模式连通性 (Linear Mode Connectivity, LMC) 和 Dropout 稳定性,为模型融合与剪枝打下了坚实的基础。

今日霍州(www.jrhz.info)©️

图 1:CoTo 渐进式激活示意图。训练初期(t <3T/4),适配器被随机失活(灰色部分),其激活概率 p (t) 随训练线性增长;训练后期,所有适配器保持激活。

实验结果

CoTo 最令人兴奋的贡献在于它极大地提升了 LoRA 模型的融合和剪枝能力,且 CoTo 本身也能在单任务的泛化性能和训练效率上带来提升。

更有效的模型融合

  • 线性插值准确率:在常识推理与图像分类任务中,对两个独立训练的 LoRA 模型进行线性插值时,标准 LoRA 的性能在融合点 (λ=0.5) 会急剧下降。相比之下,CoTo 模型展现了优越的线性模式连通性 (LMC),在整个插值路径上均能保持平滑且高效的性能过渡。
  • 多任务 LoRA 融合:在 GLUE 数据集上,无论是基于 LLaMA-2 (7B, 13B) 还是 DeBERTa-v3 模型,通过 CoTo 训练的 LoRA 模块在进行多任务合并时,其准确率均稳定超越了使用常规训练方法融合的基线模型。

今日霍州(www.jrhz.info)©️

图 2:常识推理任务的线性插值准确率。

今日霍州(www.jrhz.info)©️

图 3:图像分类任务的线性插值准确率。

今日霍州(www.jrhz.info)©️

图 4:使用 LLaMA-2-7B 和 LLaMA-2-13 模型进行多任务 LoRA 融合的准确率。

更鲁棒的模型剪枝

CoTo 的训练方式天然地增强了模型的剪枝容错能力。如下图所示,无论是在移除交替层、底层、中层还是高层适配器的结构化剪枝中,还是在不同稀疏度的非结构化剪枝中,CoTo-LoRA 的性能都全面超越了标准 LoRA。

今日霍州(www.jrhz.info)©️

图 5:结构化剪枝对比(左)和非结构化剪枝对比(右)。

性能与效率双提升

  • 性能更强:在涵盖视觉(11 个图像分类任务)、语言(8 个常识推理任务)和数学推理等多个领域的基准测试中,CoTo 都能稳定地提升包括 LoRA、DoRA、HiRA 在内的多种 LoRA 变体的性能。
  • 训练更快:由于在训练早期跳过了部分适配器的计算,CoTo 还能降低训练开销。例如,在 HiRA 上应用 CoTo,可以实现超 24% 的训练加速!

今日霍州(www.jrhz.info)©️

图 6:在常识推理和数学推理上,基于不同 LoRA 变体和训练策略的性能提升。

消融实验

为了验证 CoTo 各个设计选择的合理性并探究其性能提升的根源,研究团队在训练阶段比例、激活概率曲线、嵌套 Dropout 策略、学习率和 LoRA rank 等多个方面进行了一系列严谨的消融实验。这些实验不仅证明了 CoTo 设计的合理性,也为我们提供了关于如何有效正则化 LoRA 的深刻见解。

令人欣喜的是,CoTo 的代码实现十分简洁,用户只需对现有 LoRA 训练流程做三步改动即可利用这一策略,感兴趣的读者可以访问代码仓库,亲自体验 CoTo 的效果!

总结

CoTo 通过一个简单而巧妙的渐进式训练策略,有效解决了 LoRA 训练中的层级不平衡和 「懒惰」 优化问题。它不仅提升了模型的单任务泛化能力,更重要的是,它极大地增强了 LoRA 适配器的可组合性与鲁棒性,让模型融合与剪枝等下游操作变得更加简单高效。CoTo 无需修改模型架构,可以作为即插即用的模块与各类 LoRA 方法无缝集成。文章中还提供了渐进优化和合作博弈两个角度深入分析了 CoTo 带来的优势。我们相信,这项工作将为参数高效微调领域的研究与应用带来新的启发。

特别声明:[ICML 2025 | CoTo:让LoRA训练「渐入佳境」,模型融合、剪枝样样精通] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

豆瓣9.0,央视一出手,又带来部国产天花板(央视豆瓣评分9.0以上纪录片)

从《航拍中国》到《蔚蓝之境》,从《生命奇观》到《众神之地》,它们用最匠心的拍摄精神和最独特的选题视角,带领观众领略自然之美。 为了呈现出不同土地上不同生命形态,摄制组也在拍摄过程中经历了一次又一次的极致冒险…

豆瓣9.0,央视一出手,又带来部国产天花板(央视豆瓣评分9.0以上纪录片)

TVB女星童年与『张国荣』合照被赞,选美出身,嫁武打『明星』️生活幸福(tvb女演员张)

近日,网上就流出了汤盈盈孩童时候的照片,而与她合照的人正是已故知名艺人『张国荣』。 发布者更提到这是1986年的照片,相中的小女孩正是11岁的汤盈盈。其中她在《封神榜》中饰演心肠坏得很的柳琵琶,更在剧中与钱嘉乐…

TVB女星童年与『张国荣』合照被赞,选美出身,嫁武打『明星』️生活幸福(tvb女演员张)

10部禁忌之恋韩剧!《纸之月》大尺度背德、“这部”豪门不伦上演(10部禁忌之恋韩剧)

夫妻的世界》堪称韩剧最具代表性的婚外恋作品,金喜爱、朴海俊、韩韶禧领衔主演,讲述本是一位幸福的医师兼妻子“池善雨”,却发现丈夫“李泰伍”与年轻女子“吕多景”背着她偷情,甚至建立长期关系。 “禁忌之恋”向来是…

10部禁忌之恋韩剧!《<strong>纸之月</strong>》大尺度背德、“这部”豪门不伦上演(10部禁忌之恋韩剧)

畸形吃播陈晨辰被封禁 平台清理猎奇内容

12月11日,据澎湃新闻报道,女主播“陈晨辰(喝醋版)”因用醋泡口香糖、鱼油等猎奇吃播内容博取眼球而被快手、『抖音』平台封禁。涉事主播的小红书账户已改名为“陈辰晨”,并下架了相关视频,但账户仍正常运营,橱窗商品也继续售卖

畸形吃播陈晨辰被封禁 平台清理猎奇内容

今晚7点,见证一个有颜有实力的S系诞生

官方这波预告,信息量简直大到溢出,感觉这次S系列不仅要拼颜值,还想当个全能学霸。综合来看,从流动光影的后盖到硬核堆料的内心,从长焦Live到创意运镜,vivo S50系列这次仿佛在说:谁说颜值和实力不能并存…

今晚7点,见证一个有颜有实力的S系诞生