Nautile-370M: Spectral Memory Meets Attention in a Small Reasoning Model

发布

2026年04月29日

采集 2026年04月29日 06:31

学术前沿 6.5 分 — 小模型混合架构创新（SCA 层交替 transformer），371M 参数实现高效推理

评分 6.5 · 来源：arXiv cs.LG · 发布于 2026-04-29

评分依据：小模型混合架构创新（SCA 层交替 transformer），371M 参数实现高效推理

Nautile-370M 是一个 3.71 亿参数的小语言模型，专为严格参数和推理预算下的高效推理设计。采用混合骨干：两个 SeqCond Attention (SCA) 层与一个 transformer 层交替，灵感来自 SeqCondenser 的线性时间谱序列算子。旨在在极小规模下保留长上下文效率和状态跟踪优势。