边缘设备上的高效推理：LoRA + 强化学习让小模型学会思考

评分 7.3 · 来源：arXiv · 发布于 2026-03-19

评分依据：针对移动端推理的实用方案，有技术创新和实际部署验证

要点

Qualcomm 研究团队提出在小型 LLM 上实现推理能力的轻量级方案。核心方法是 LoRA 适配器 + 监督微调，再通过强化学习的”预算强制”（budget forcing）大幅缩短推理长度，精度损失极小。

针对内存受限的解码过程，利用并行测试时扩展（parallel test-time scaling）以微小延迟换取精度提升。引入动态适配器切换机制——仅在需要时激活推理，以及 KV-cache 共享策略减少首 token 时间。

在 Qwen2.5-7B 上的实验证明该方法在严格资源约束下实现高效准确推理。项目页面提供移动设备实际运行视频。

这是少见的”从论文到产品”距离极短的研究。Qualcomm 的优势在于同时掌握芯片、系统和算法——LoRA 适配器的动态切换、KV-cache 共享这些优化，都需要对硬件特性有深刻理解。“预算强制”用 RL 压缩推理长度的思路也很实用，比暴力蒸馏更灵活。