评分 7.3 · 来源:arXiv · 发布于 2026-03-19
评分依据:针对移动端推理的实用方案,有技术创新和实际部署验证
要点
Qualcomm 研究团队提出在小型 LLM 上实现推理能力的轻量级方案。核心方法是 LoRA 适配器 + 监督微调,再通过强化学习的”预算强制”(budget forcing)大幅缩短推理长度,精度损失极小。
针对内存受限的解码过程,利用并行测试时扩展(parallel test-time scaling)以微小延迟换取精度提升。引入动态适配器切换机制——仅在需要时激活推理,以及 KV-cache 共享策略减少首 token 时间。
在 Qwen2.5-7B 上的实验证明该方法在严格资源约束下实现高效准确推理。项目页面提供移动设备实际运行视频。
🤖 AI 点评
这是少见的”从论文到产品”距离极短的研究。Qualcomm 的优势在于同时掌握芯片、系统和算法——LoRA 适配器的动态切换、KV-cache 共享这些优化,都需要对硬件特性有深刻理解。“预算强制”用 RL 压缩推理长度的思路也很实用,比暴力蒸馏更灵活。