LLM 边缘推理基准：从树莓派到 RTX 4050 的持续负载横评

发布

2026年03月26日

采集 2026年03月26日 06:33

算力硬件 7.4 分 — 首个统一方法论跨四类平台的 LLM 持续推理基准，揭示热管理瓶颈

评分 7.4 · 来源：cs.LG updates on arXiv.org · 发布于 2026-03-26

评分依据：首个统一方法论跨四类平台的 LLM 持续推理基准，揭示热管理瓶颈

要点

在树莓派 5+Hailo-10H、Galaxy S24 Ultra、iPhone 16 Pro、RTX 4050 上测试 Qwen 2.5 1.5B 4-bit，20 次热迭代。关键发现：移动平台热管理而非算力是主要瓶颈。

「标称算力」与「持续可用性能」鸿沟惊人。边缘 Agent 部署者，热管理策略可能比模型优化更关键。