评分 8.1 · 来源:arXiv · 发布于 2026-03-16
评分依据:SSM 架构重要迭代,三项核心方法论改进,ICLR 2026 录用,推进了次二次模型的性能-效率边界
要点
Mamba-3 是状态空间模型(SSM)系列的第三代,从”推理优先”视角出发,引入三项核心方法论改进:
三项核心改进:
- 更强表达力的递归 — 基于 SSM 离散化推导,提供更丰富的序列建模能力
- 复值状态更新规则 — 使用复数值状态实现更丰富的状态追踪
- MIMO(多输入多输出)公式 — 提升模型性能但不增加解码延迟
实验结果(1.5B 规模):
- 平均下游准确率比次优模型(Gated DeltaNet)提升 0.6 个百分点
- MIMO 变体进一步提升 1.2 个百分点,总计 1.8 个百分点 增益
- 以 Mamba-2 一半的状态大小 达到同等困惑度
- 在检索、状态追踪和下游语言建模任务上均有显著提升
核心动机:
- 推理时计算缩放已成为 LLM 性能的重要驱动力
- 当前 Transformer 二次计算和线性内存使推理昂贵
- 现有次二次模型在状态追踪等任务上表现不佳,且理论线性推理在实际硬件上效率低
论文信息:
- ICLR 2026 录用
- 作者:Kevin Li 等
- 分类:Machine Learning (cs.LG)
🤖 AI 点评
Mamba 系列一直在回答一个核心问题:“次二次模型能否在不牺牲质量的前提下替代 Transformer?” Mamba-3 的答案更加肯定了 — 用一半的状态大小达到前代水平,同时在检索和状态追踪上取得更好结果。
复值状态更新是个有意思的设计选择。复数在信号处理中被广泛使用(因为能自然表示相位和频率),将这个思路引入序列建模可以让模型更高效地编码时间依赖关系。
ICLR 2026 录用也验证了这项工作的学术质量。不过需要注意:1.5B 规模的结果能否扩展到更大模型还是未知数,而这恰恰是 Transformer 最强的领域。