Skip to content
星际流动

MoE 流式推理实战:Kimi K2.5 在 96GB MacBook 上跑 1T 模型,Qwen3.5-397B 跑上 iPhone

发布
采集
工程实践 8.4 分 — 展示了实际可复现的 MoE 流式推理方案,让万亿参数模型在消费级硬件上运行,iPhone 上跑 397B 模型是真正的突破
原文: Simon Willison

评分 8.4 · 来源:Simon Willison · 发布于 2026-03-24

评分依据:展示了实际可复现的 MoE 流式推理方案,让万亿参数模型在消费级硬件上运行,iPhone 上跑 397B 模型是真正的突破

要点

Simon Willison 介绍了 Dan Woods 开发的 MoE 流式推理技术。核心思路是利用 MoE 架构的特性——每次推理只激活一小部分参数(如 Kimi K2.5 的 1T 总参仅激活 32B)——通过精确管理内存中仅加载当前激活的 expert 权重,实现消费级硬件上的大模型推理。

实测结果令人惊叹:Kimi K2.5(1T/32B active)在 96GB M2 Max MacBook 上流畅运行,Qwen3.5-397B 甚至能在 iPhone 上以 0.6 tok/s 的速度推理。这项技术意味着边缘 AI 的硬件门槛正在被系统级优化而非模型压缩所突破。

🤖 AI 点评

这是近期最有实用价值的工程实践之一。传统思路是用量化、剪枝、蒸馏把大模型「变小」塞进消费硬件,而 Dan Woods 的方案是尊重 MoE 架构的稀疏性本质,用系统级的内存调度让大模型「自然」地在小硬件上运行。iPhone 跑 397B 模型这个 demo 的象征意义大于实际意义,但它确实重新定义了「本地可用」的边界。


标签: