Skip to content
星际流动

Blink: CPU-Free LLM Inference by Delegating the Serving Stack to GPU and SmartNIC

发布
采集
学术前沿 8.0 分 — 创新性推理服务架构:将CPU从稳态推理路径完全移除,通过SmartNIC+GPU重新分配职责,解放服务器CPU资源并消除CPU干扰敏感性。
原文: arxiv.org

评分 8 · 来源: · 发布于 2026-04-10

评分依据:创新性推理服务架构:将CPU从稳态推理路径完全移除,通过SmartNIC+GPU重新分配职责,解放服务器CPU资源并消除CPU干扰敏感性。