评分 6.5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:小模型混合架构创新(SCA 层交替 transformer),371M 参数实现高效推理
Nautile-370M 是一个 3.71 亿参数的小语言模型,专为严格参数和推理预算下的高效推理设计。采用混合骨干:两个 SeqCond Attention (SCA) 层与一个 transformer 层交替,灵感来自 SeqCondenser 的线性时间谱序列算子。旨在在极小规模下保留长上下文效率和状态跟踪优势。