F2LLM-v2：覆盖 200+ 语言的多语言嵌入模型家族，80M 到 14B 八档可选

评分 7.2 · 来源：arXiv · 发布于 2026-03-19

评分依据：200+ 语言覆盖 + 8 档模型选择 + 11 项 MTEB 第一 + 全开源，对多语言 RAG 和搜索场景直接可用

要点

F2LLM-v2 是一个新的通用多语言嵌入模型家族，提供从 80M 到 14B 共 8 个尺寸。模型基于 6000 万条高质量公开数据训练，支持超过 200 种语言，特别强调了对中低资源语言的覆盖。

14B 旗舰版本在 11 个 MTEB 基准测试中排名第一。训练管线采用两阶段 LLM 嵌入训练 + Matryoshka 学习 + 模型剪枝 + 知识蒸馏，在保持竞争力的同时大幅提升推理效率。小尺寸模型在资源受限场景中也达到了新的 SOTA。

项目完全开源：模型权重、训练数据、代码和中间检查点全部发布，可直接用于生产环境部署。

对需要多语言 RAG 或语义搜索的开发者来说，F2LLM-v2 是当前最全面的选择之一。8 档尺寸意味着可以根据部署环境灵活选择——从边缘设备到服务器都能覆盖。200+ 语言的支持尤其值得关注，此前大多数嵌入模型在非英语语种上表现明显衰减。不过实际生产效果仍需在目标语言上验证。