评分 8.0 · 来源:Hacker News · 发布于 2026-03-21
评分依据:硬核基准数据证明本地小模型在垂直领域可匹敌云端顶级模型,零成本完全离线
要点
HomeSec-Bench 是一个针对家庭安全助手真实工作流的基准测试,包含 96 个 LLM 测试和 35 个 VLM 测试,覆盖 15 个测试套件(工具调用、安全分类、事件去重等)。在 MacBook Pro M5(64GB 统一内存)上,使用 llama.cpp 运行的 Qwen3.5-9B(Q4_K_M 量化)达到 93.8% 通过率,仅比 GPT-5.4(97.9%)低 4.1 个百分点。
值得注意的是,Qwen3.5-35B-MoE 的首 Token 延迟(435ms)甚至低于所有 OpenAI 云端模型,包括 GPT-5.4-nano(508ms)。整个 Qwen3.5 系列在 64GB MacBook 上均可完全本地运行,零 API 成本,数据完全不出设备。
🤖 AI 点评
这个结果对「小模型无用论」是当头一棒。9B 参数在垂直领域接近 GPT-5.4 水平,意味着模型能力评估不能只看通用基准——对于有明确任务边界的场景(安全分类、事件去重、工具调用编排),小模型 + 好的 Prompt 工程已经足够。
首 Token 延迟低于云端这件事尤其值得玩味。本地推理的延迟瓶颈从来不是算力,而是内存带宽和调度开销。Qwen3.5-35B-MoE 在这方面已经追平甚至超越了云端方案,对于实时性要求高的 Agent 场景,本地部署不再是「退而求其次」的选择。