MoE 流式推理实战：Kimi K2.5 在 96GB MacBook 上跑 1T 模型，Qwen3.5-397B 跑上 iPhone

评分 8.4 · 来源：Simon Willison · 发布于 2026-03-24

评分依据：展示了实际可复现的 MoE 流式推理方案，让万亿参数模型在消费级硬件上运行，iPhone 上跑 397B 模型是真正的突破

要点

Simon Willison 介绍了 Dan Woods 开发的 MoE 流式推理技术。核心思路是利用 MoE 架构的特性——每次推理只激活一小部分参数（如 Kimi K2.5 的 1T 总参仅激活 32B）——通过精确管理内存中仅加载当前激活的 expert 权重，实现消费级硬件上的大模型推理。

实测结果令人惊叹：Kimi K2.5（1T/32B active）在 96GB M2 Max MacBook 上流畅运行，Qwen3.5-397B 甚至能在 iPhone 上以 0.6 tok/s 的速度推理。这项技术意味着边缘 AI 的硬件门槛正在被系统级优化而非模型压缩所突破。

🤖 AI 点评

这是近期最有实用价值的工程实践之一。传统思路是用量化、剪枝、蒸馏把大模型「变小」塞进消费硬件，而 Dan Woods 的方案是尊重 MoE 架构的稀疏性本质，用系统级的内存调度让大模型「自然」地在小硬件上运行。iPhone 跑 397B 模型这个 demo 的象征意义大于实际意义，但它确实重新定义了「本地可用」的边界。