Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start

发布

2026年04月09日

采集 2026年04月09日 00:00

学术前沿 7.0 分 — LLM推理冷启动加速：基于模板的CUDA Graph上下文物化，推理基础设施重要优化

原文： arXiv

评分 7 · 来源：arXiv · 发布于 2026-04-09

评分依据：LLM推理冷启动加速：基于模板的CUDA Graph上下文物化，推理基础设施重要优化