评分 7.65 · 来源:Hugging Face · 发布于 2026-03-18
NVIDIA 官方一手发布,有完整技术细节和开源权重,边缘部署场景价值明确
要点
NVIDIA 正式发布 Nemotron 3 Nano 4B,这是 Nemotron 3 系列中最紧凑的成员,采用 Mamba-Transformer 混合架构,专为本地和边缘 AI 场景设计。
- 4B 参数,极致轻量:可在 Jetson Thor/Orin Nano、DGX Spark 和 RTX GPU 上运行,VRAM 占用为同级别最低
- 混合架构优势:Mamba SSM + Transformer 结合,在高输入/输出长度下实现最低 TTFT(首 token 延迟)
- 能力全面:指令跟随(IFBench/IFEval)和游戏代理智能(Orak)均达同级别 SOTA,工具调用表现优异
- 训练来源:从 Nemotron Nano 9B v2 通过 Nemotron Elastic 框架剪枝蒸馏而来,继承了混合推理能力
- 开源可定制:模型权重已在 Hugging Face 开放,支持领域特定微调和优化
🤖 AI 点评
这是 NVIDIA 在 GTC 期间推出的”小而美”路线代表作。4B 参数跑在 RTX 4070 上用 Q4 量化就能工作,把”本地 AI”从概念拉到了真正可用的水平。Mamba-Transformer 混合架构在推理效率上的优势正在被越来越多模型采用,Nemotron Nano 的实测数据给了这个方向一个扎实的 benchmark。对关注端侧部署的开发者来说,这可能是目前最值得尝试的 4B 级开源模型。