新方法让 AI 模型在训练中实现轻量化提速

麻省理工团队突破 AI 训练成本瓶颈：训练过程中完成模型压缩新技术

训练大型人工智能模型的成本高昂，不仅体现在资金层面，时间、能源和算力的消耗同样惊人。长期以来，获取更小、更快的模型只有两条路：要么先训练一个庞大的模型再裁剪，要么从头训练一个小模型同时接受性能损失。

MIT 计算机科学与人工智能实验室（ CSAIL ）、马克斯·普朗克智能系统研究所、欧洲学习与智能系统实验室、苏黎世联邦理工学院以及 Liquid AI 的研究人员联合开发了一种名为 CompreSSM 的新方法，彻底绕开了这一取舍困境。该技术的核心在于训练过程中完成压缩，而非训练结束后。

CompreSSM 针对状态空间模型（ State Space Models ， SSM ）这一 AI 架构家族发力。该架构族支撑着从语言处理、音频生成到机器人控制等多种应用场景。研究团队从控制理论中借用数学工具，在训练早期就能识别模型中哪些部分在真正发挥作用，哪些是冗余负担，从而精准剔除不必要的组件。

电气工程与计算机科学系博士研究生、 CSAIL 成员、论文第一作者 Makram Chahine 介绍，这本质上是一种让模型在训练过程中逐渐变小、变快的技术。模型在学习的同时，也在淘汰对自身发展无用的部分。

关键发现在于，状态空间模型内部不同组件的相对重要性在训练早期出人意料地稳定下来。研究团队采用汉克尔奇异值（ Hankel Singular Values ）这一数学量来衡量每个内部状态对模型整体行为的贡献度，证明只需完成约 10%的训练过程，就能可靠地排出各维度的重要程度排序。排序确定后，次要组件可以被安全丢弃，而剩余 90%的训练将以远小于原始规模的模型速度进行。

CSAIL 主任、 MIT 教授 Daniela Rus 指出，这项工作的突破性在于将压缩从事后思考转变为学习过程本身的组成部分。 CompreSSM 让模型在学习中自主发现高效结构，而非先训练大模型再考虑如何缩小它。这是构建 AI 系统理念上的根本转变。

实验结果引人注目。在图像分类基准测试中，压缩后的模型与完整模型保持近乎相同的准确率，训练速度却提升至原来的 1.5 倍。将一个模型压缩至原始状态维度的约四分之一，在 CIFAR-10 基准测试中仍达到 85.7%的准确率，而从零开始以该小规模训练的模型仅有 81.8%。在 Mamba 这一最广泛使用的状态空间架构上，该方法实现了约 4 倍的训练加速，将 128 维模型压缩至约 12 维，同时保持具有竞争力的性能表现。

Chahine 解释，由于在预热阶段捕获了大部分复杂动态，只保留了最有价值的状态，因此模型能够保持大模型的性能表现。与从零开始训练小模型相比，经过压缩的模型始终能够达到更高水平。

与现有方法相比， CompreSSM 的理论基础更为扎实。传统剪枝方法需要先训练完整模型，再事后剥离参数，意味着仍需支付训练大模型的全部算力成本。知识蒸馏是另一种流行技术，需要先将大模型训练至完成，再基于其训练第二个更小的学生模型，训练工作量近乎翻倍。 CompreSSM 通过在训练中途做出明智的压缩决策，同时规避了这两种成本。

团队将 CompreSSM 与替代方案进行了直接对比。相较于最近提出的汉克尔核范数正则化方法（一种鼓励紧凑状态空间模型的光谱技术）， CompreSSM 速度快 40 倍以上，同时准确率更高。正则化方法使训练速度降低约 16 倍，因为它在每个梯度步骤都需要昂贵的特征值计算，最终模型性能仍然不及。在 CIFAR-10 上与知识蒸馏对比， CompreSSM 对高压缩比模型具有明显优势：在较小的状态维度下，蒸馏模型的准确率大幅下降，而 CompreSSM 压缩模型保持接近完整的性能表现。由于蒸馏在每个训练步骤需要对教师模型和学生模型都进行前向传播，即使学生模型规模更小，其训练速度也慢于完整规模的基准模型。

研究团队从数学上证明了模型各状态的重要性在训练过程中平滑变化，这得益于 Weyl 定理的应用，并从实验上验证了这些状态的相对排序保持稳定。这些发现让实践者有充分信心确信，早期被判定为可忽略的维度不会在后期突然变得关键。

该方法还提供了实用的安全机制。如果某次压缩步骤导致意外的性能下降，实践者可以回退至先前保存的检查点。 Chahine 表示，这让人们能够控制愿意在性能方面付出的代价，而不必去定义一个不那么直观的能耗阈值。

该技术存在一些实用性边界。 CompreSSM 在模型内部状态维度与整体性能之间存在强相关性的情况下效果最佳，这一特性因任务和架构而异。该方法在多输入多输出（ MIMO ）模型上尤其有效，因为这类模型中状态大小与表达能力之间的关系最为紧密。对于逐通道的单输入单输出架构，提升幅度较为有限，因为这类模型本身对状态维度变化的敏感度较低。

该理论的适用场景在时间不变线性系统上最为清晰，尽管团队已针对日益流行的时间变化架构开发了扩展方案。由于状态空间模型族延伸至线性注意力等架构。作为传统 Transformer 替代方案，这一日益增长的关注领域，该技术的潜在应用范围相当广泛。

Chahine 及其合作者将这项工作视为一块垫脚石。团队已在 Mamba 等时间变化线性系统上演示了扩展方案，未来的方向包括将 CompreSSM 进一步推向线性注意力机制中使用的矩阵值动力学系统，这将使该技术更接近支撑当今最大规模 AI 系统的基础架构。

Chahine 认为，这必须是第一步，因为这里理论最为整洁，方法能够保持原则性。这是迈向扩展到当前工业界使用的其他架构的垫脚石。

ELLIS 图宾根研究所首席研究员、马克斯·普朗克智能系统研究所独立小组负责人 Antonio Orvieto 评价，这项工作为现代状态空间模型的压缩提供了一个具有理论依据的引人入胜视角。该方法提供的证据表明，这些模型的状态维度可以在训练过程中有效缩减，且控制论视角能够成功指导这一过程。这项工作为未来研究开辟了新方向，所提出的算法在预训练大型 SSM 基础模型时具有成为标准方法的潜力。

该成果已被接受为 2026 年国际学习表征会议（ ICLR 2026 ）会议论文，将于本月晚些时候发布。该研究部分得到了马克斯·普朗克苏黎世联邦理工学院学习系统中心、赫克托尔基金会、波音公司以及美国海军研究办公室的支持。

创艺洞察

CompreSSM 的意义远超一项技术突破本身。它指向了一个更根本的问题： AI 系统的开发范式正在从“越大越好”的暴力美学，转向“适度精准”的工程理性。

控制理论的引入尤为值得关注。这一源自经典系统工程的数学框架，长期以来与深度学习保持着若即若离的距离。如今，它在压缩任务上找到了切实的落地场景，这或许预示着未来 AI 研究的一个新趋势：重新审视经典理论资产，在现代模型上挖掘其尚未释放的潜力。

从产业视角看，该技术对边缘部署和能耗优化具有直接价值。然而，更深远的影响可能在于改变模型开发的成本结构。当压缩不再是事后补救，而是训练的内生环节，整个 AI 系统的设计和评估方法都将面临重构。这支团队选择了从理论干净的线性系统起步，稳扎稳打地向 Transformer 靠拢——这种渐进策略本身也值得玩味。在 AI 领域普遍追求即时应用的氛围下，这种耐心或许正是其价值的来源。

麻省理工团队突破 AI 训练成本瓶颈：训练过程中完成模型压缩新技术

创艺洞察

相关文章

10 分钟搞定整套设计，AI 工作流的终极闭环

14 天 50 万美元，AI 长片杀进戛纳的 28 个实战技巧

如何解决 Hermes Agent 中 QQ Bot “灵魂不在线”

评论区