评分 7.2 · 来源:arXiv · 发布于 2026-03-19
评分依据:200+ 语言覆盖 + 8 档模型选择 + 11 项 MTEB 第一 + 全开源,对多语言 RAG 和搜索场景直接可用
要点
F2LLM-v2 是一个新的通用多语言嵌入模型家族,提供从 80M 到 14B 共 8 个尺寸。模型基于 6000 万条高质量公开数据训练,支持超过 200 种语言,特别强调了对中低资源语言的覆盖。
14B 旗舰版本在 11 个 MTEB 基准测试中排名第一。训练管线采用两阶段 LLM 嵌入训练 + Matryoshka 学习 + 模型剪枝 + 知识蒸馏,在保持竞争力的同时大幅提升推理效率。小尺寸模型在资源受限场景中也达到了新的 SOTA。
项目完全开源:模型权重、训练数据、代码和中间检查点全部发布,可直接用于生产环境部署。
🤖 AI 点评
对需要多语言 RAG 或语义搜索的开发者来说,F2LLM-v2 是当前最全面的选择之一。8 档尺寸意味着可以根据部署环境灵活选择——从边缘设备到服务器都能覆盖。200+ 语言的支持尤其值得关注,此前大多数嵌入模型在非英语语种上表现明显衰减。不过实际生产效果仍需在目标语言上验证。