Skip to content
星际流动

Mamba-3:SSM 架构第三代迭代,推进性能-效率帕累托前沿

发布
采集
学术前沿 8.1 分 — SSM 架构重要迭代,三项核心方法论改进,ICLR 2026 录用,推进了次二次模型的性能-效率边界
原文: arXiv

评分 8.1 · 来源:arXiv · 发布于 2026-03-16

评分依据:SSM 架构重要迭代,三项核心方法论改进,ICLR 2026 录用,推进了次二次模型的性能-效率边界

要点

Mamba-3 是状态空间模型(SSM)系列的第三代,从”推理优先”视角出发,引入三项核心方法论改进:

三项核心改进:

  1. 更强表达力的递归 — 基于 SSM 离散化推导,提供更丰富的序列建模能力
  2. 复值状态更新规则 — 使用复数值状态实现更丰富的状态追踪
  3. MIMO(多输入多输出)公式 — 提升模型性能但不增加解码延迟

实验结果(1.5B 规模):

核心动机:

论文信息:

🤖 AI 点评

Mamba 系列一直在回答一个核心问题:“次二次模型能否在不牺牲质量的前提下替代 Transformer?” Mamba-3 的答案更加肯定了 — 用一半的状态大小达到前代水平,同时在检索和状态追踪上取得更好结果。

复值状态更新是个有意思的设计选择。复数在信号处理中被广泛使用(因为能自然表示相位和频率),将这个思路引入序列建模可以让模型更高效地编码时间依赖关系。

ICLR 2026 录用也验证了这项工作的学术质量。不过需要注意:1.5B 规模的结果能否扩展到更大模型还是未知数,而这恰恰是 Transformer 最强的领域。


标签: