评分 7 · 来源:arXiv · 发布于 2026-04-09
评分依据:LLM推理冷启动加速:基于模板的CUDA Graph上下文物化,推理基础设施重要优化
Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start
原文: arXiv
评分 7 · 来源:arXiv · 发布于 2026-04-09
评分依据:LLM推理冷启动加速:基于模板的CUDA Graph上下文物化,推理基础设施重要优化