Qwen3.5-9B 本地跑出 93.8% 准确率，距 GPT-5.4 仅 4 个百分点

评分 8.0 · 来源：Hacker News · 发布于 2026-03-21

评分依据：硬核基准数据证明本地小模型在垂直领域可匹敌云端顶级模型，零成本完全离线

要点

HomeSec-Bench 是一个针对家庭安全助手真实工作流的基准测试，包含 96 个 LLM 测试和 35 个 VLM 测试，覆盖 15 个测试套件（工具调用、安全分类、事件去重等）。在 MacBook Pro M5（64GB 统一内存）上，使用 llama.cpp 运行的 Qwen3.5-9B（Q4_K_M 量化）达到 93.8% 通过率，仅比 GPT-5.4（97.9%）低 4.1 个百分点。

值得注意的是，Qwen3.5-35B-MoE 的首 Token 延迟（435ms）甚至低于所有 OpenAI 云端模型，包括 GPT-5.4-nano（508ms）。整个 Qwen3.5 系列在 64GB MacBook 上均可完全本地运行，零 API 成本，数据完全不出设备。

🤖 AI 点评

这个结果对「小模型无用论」是当头一棒。9B 参数在垂直领域接近 GPT-5.4 水平，意味着模型能力评估不能只看通用基准——对于有明确任务边界的场景（安全分类、事件去重、工具调用编排），小模型 + 好的 Prompt 工程已经足够。

首 Token 延迟低于云端这件事尤其值得玩味。本地推理的延迟瓶颈从来不是算力，而是内存带宽和调度开销。Qwen3.5-35B-MoE 在这方面已经追平甚至超越了云端方案，对于实时性要求高的 Agent 场景，本地部署不再是「退而求其次」的选择。