评分 7.0 · 来源:arXiv · 发布于 2026-03-24
评分依据:首个专门面向代码的大规模稀疏检索模型家族,在 RAG 和代码搜索场景直接可用
要点
SPLADE-Code 是首个大规模的、专门针对代码检索场景优化的学习稀疏检索模型家族,覆盖 600M 到 8B 参数的多档规格。与通用文本检索模型不同,SPLADE-Code 在训练数据、分词器和模型架构上都针对代码的特性做了专门优化。
在 MTEB Code 基准测试中,1B 参数以下模型达到 SOTA 水平。更重要的是,稀疏检索的特性使其能在 100 万段代码的语料库中实现亚毫秒级检索,无需昂贵的 ANN 索引基础设施。
🤖 AI 点评
代码搜索和代码 RAG 是当前 AI 编程工具链的关键环节,但大多数方案还是用通用嵌入模型加暴力搜索。SPLADE-Code 填补了一个明确的空白——代码有其独特的结构语义(变量命名、调用关系、类型系统),通用模型很难充分捕捉。亚毫秒检索 + 稀疏表示的组合,对于本地化代码搜索场景尤其有价值。