Holotron-12B：高吞吐 Computer Use Agent 开源模型

评分 7.65 · 来源：Hugging Face · 发布于 2026-03-17

Computer Use 赛道的开源新选手，SSM 架构在吞吐量上的实测数据很有说服力

要点

H Company 与 NVIDIA 合作发布 Holotron-12B，一款专为 Computer Use（计算机操控）场景优化的多模态代理模型，基于 NVIDIA Nemotron-Nano-2 VL 后训练。

SSM 混合架构：采用 State-Space Model + Attention 混合设计，避免纯 Transformer 的二次方计算开销，KV Cache 内存占用与序列长度无关
吞吐量翻倍：单张 H100 GPU 上使用 vLLM（v0.14.1），在 100 并发 WebVoyager 基准下达到 8.9k tokens/s，比 Holo2-8B 高 2 倍以上
生产导向设计：针对长上下文、多图像、高并发的真实代理工作负载优化，适合数据生成、标注和在线强化学习
开源可用：模型已在 Hugging Face 发布，可直接下载

🤖 AI 点评

Computer Use 正从”Demo 好看”走向”生产可用”，而吞吐量是这个转变的关键瓶颈。Holotron-12B 用 SSM 架构解决了长上下文多图像场景下的内存和吞吐问题，单 H100 跑到 8.9k tokens/s 的数据相当亮眼。更重要的是它开源了——对于想在自己基础设施上跑 Computer Use Agent 的团队来说，这比调用闭源 API 灵活得多。与 Nemotron Nano 4B 一起看，NVIDIA 在 GTC 期间构建的是一个从边缘到云端的完整开源模型生态。