Skip to content
星际流动

Nautile-370M: Spectral Memory Meets Attention in a Small Reasoning Model

发布
采集
学术前沿 6.5 分 — 小模型混合架构创新(SCA 层交替 transformer),371M 参数实现高效推理
原文: arXiv cs.LG

评分 6.5 · 来源:arXiv cs.LG · 发布于 2026-04-29

评分依据:小模型混合架构创新(SCA 层交替 transformer),371M 参数实现高效推理

Nautile-370M 是一个 3.71 亿参数的小语言模型,专为严格参数和推理预算下的高效推理设计。采用混合骨干:两个 SeqCond Attention (SCA) 层与一个 transformer 层交替,灵感来自 SeqCondenser 的线性时间谱序列算子。旨在在极小规模下保留长上下文效率和状态跟踪优势。


标签: