评分 8 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22
评分依据:提出μLM(8M-30M参数)概念:端侧即时生成首4-8词响应再由云端补全,解决边缘设备延迟问题。新范式,工程落地价值高
问题背景
智能手表、智能眼镜等边缘设备无法持续运行即使最小的100M-1B参数模型(功耗和算力约束),而云端推理引入数秒延迟破坏助手响应感。
μLM 方案
引入微语言模型(μLMs):8M-30M参数的超紧凑模型,在设备上即时生成首4-8词上下文相关响应,同时云端运行完整模型补全剩余部分。
技术要点
- μLM专注生成高质量response prefix
- 云端模型基于prefix context继续生成
- 用户感知延迟从秒级降至毫秒级
- 端侧功耗远低于运行完整小模型
意义
为边缘AI交互提供了新的架构范式,对可穿戴设备AI助手的落地具有直接推动作用。