Tag: Mamba
All the articles with the tag "Mamba".
- 7.7
Nemotron 3 Nano 4B:面向本地 AI 的紧凑型混合架构模型
NVIDIA 发布 4B 参数 Mamba-Transformer 混合架构模型,专为边缘设备本地部署优化
- 7.3
Mamba-3:用状态空间原理推进序列建模的 Pareto 前沿
SSM 架构第三代,引入复数状态更新和 MIMO 机制,在检索、状态追踪和语言建模上全面提升
- 8.1
Mamba-3:SSM 架构第三代迭代,推进性能-效率帕累托前沿
Mamba-3 引入 SSM 启发的三项核心改进(更强表达递归、复值状态更新、MIMO 公式),在 1.5B 规模上以一半状态大小达到 Mamba-2 水平
- 7.6
Mamba-3: Improved Sequence Modeling using State Space Principles
Mamba-3 advances performance-efficiency frontier with improved recurrence, complex-valued state updates, and MIMO formulation.