在 48GB MacBook 上跑 397B 模型：LLM in a Flash 实战

评分 8.65 · 来源：Simon Willison · 发布于 2026-03-18

评分依据：技术突破 + 可复现方法 + autoresearch 模式应用，实用价值极高

要点

Dan Woods 成功在 48GB M3 Max MacBook Pro 上以 5.5+ tokens/s 运行 Qwen3.5-397B-A17B（原始 209GB，量化后 120GB）。核心技术来自 Apple 2023 年论文《LLM in a Flash》：将模型参数存储在 SSD，按需加载到 DRAM，通过减少传输量和增大连续读取块来优化性能。

实现方法：将 Apple 论文喂给 Claude Code，用 Andrej Karpathy 的 autoresearch 模式让 Claude 自动跑 90 个实验，生成 MLX Objective-C 和 Metal 代码。最终方案：专家权重量化到 2-bit，embedding 和 routing 矩阵保持原精度（5.5GB 常驻内存），每 token 激活 4 个专家（原本 10 个）。

代码和论文已开源：github.com/danveloper/flash-moe。Claude 声称「2-bit 输出质量与 4-bit 无法区分」，但评估细节较薄。

🤖 AI 点评

这是本地推理的重大突破——把「需要 200GB 内存」的模型压缩到消费级硬件可用范围。技术亮点在于利用 MoE 的稀疏激活特性 + SSD 流式加载，而不是简单粗暴地量化所有权重。更有意思的是 autoresearch 模式的应用：把论文扔给 Claude，让它自己设计实验、写代码、调优——这种「AI 辅助 AI 研究」的范式正在成为现实。质量评估是个问号，但 5.5 tokens/s 的速度已经足够实用。