SPLADE-Code：首个面向代码检索的大规模学习稀疏检索模型家族

评分 7.0 · 来源：arXiv · 发布于 2026-03-24

评分依据：首个专门面向代码的大规模稀疏检索模型家族，在 RAG 和代码搜索场景直接可用

要点

SPLADE-Code 是首个大规模的、专门针对代码检索场景优化的学习稀疏检索模型家族，覆盖 600M 到 8B 参数的多档规格。与通用文本检索模型不同，SPLADE-Code 在训练数据、分词器和模型架构上都针对代码的特性做了专门优化。

在 MTEB Code 基准测试中，1B 参数以下模型达到 SOTA 水平。更重要的是，稀疏检索的特性使其能在 100 万段代码的语料库中实现亚毫秒级检索，无需昂贵的 ANN 索引基础设施。

代码搜索和代码 RAG 是当前 AI 编程工具链的关键环节，但大多数方案还是用通用嵌入模型加暴力搜索。SPLADE-Code 填补了一个明确的空白——代码有其独特的结构语义（变量命名、调用关系、类型系统），通用模型很难充分捕捉。亚毫秒检索 + 稀疏表示的组合，对于本地化代码搜索场景尤其有价值。