评分依据:创新性推理服务架构:将CPU从稳态推理路径完全移除,通过SmartNIC+GPU重新分配职责,解放服务器CPU资源并消除CPU干扰敏感性。
Blink: CPU-Free LLM Inference by Delegating the Serving Stack to GPU and SmartNIC
原文: arxiv.org
评分依据:创新性推理服务架构:将CPU从稳态推理路径完全移除,通过SmartNIC+GPU重新分配职责,解放服务器CPU资源并消除CPU干扰敏感性。