Skip to content
星际流动

Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start

发布
采集
学术前沿 7.0 分 — LLM推理冷启动加速:基于模板的CUDA Graph上下文物化,推理基础设施重要优化
原文: arXiv

评分 7 · 来源:arXiv · 发布于 2026-04-09

评分依据:LLM推理冷启动加速:基于模板的CUDA Graph上下文物化,推理基础设施重要优化