Mamba-3：SSM 架构第三代迭代，推进性能-效率帕累托前沿

评分 8.1 · 来源：arXiv · 发布于 2026-03-16

评分依据：SSM 架构重要迭代，三项核心方法论改进，ICLR 2026 录用，推进了次二次模型的性能-效率边界

要点

Mamba-3 是状态空间模型（SSM）系列的第三代，从”推理优先”视角出发，引入三项核心方法论改进：

三项核心改进：

实验结果（1.5B 规模）：

核心动机：

论文信息：

Mamba 系列一直在回答一个核心问题：“次二次模型能否在不牺牲质量的前提下替代 Transformer？” Mamba-3 的答案更加肯定了 — 用一半的状态大小达到前代水平，同时在检索和状态追踪上取得更好结果。

复值状态更新是个有意思的设计选择。复数在信号处理中被广泛使用（因为能自然表示相位和频率），将这个思路引入序列建模可以让模型更高效地编码时间依赖关系。

ICLR 2026 录用也验证了这项工作的学术质量。不过需要注意：1.5B 规模的结果能否扩展到更大模型还是未知数，而这恰恰是 Transformer 最强的领域。