评分 6.0 · 来源:GitHub Trending · 发布于 2026-04-16
评分依据:Block Diffusion 用于 Flash Speculative Decoding 是推理加速方向的技术创新,183 stars/day 增长不错。
DFlash 提出了一种基于 Block Diffusion 的 Flash Speculative Decoding 方案,用于加速 LLM 推理。
项目数据:
- ⭐ 1,578 星,108 Forks
- 当日增长 183 stars
- Python 实现
Speculative Decoding(推测解码)是大模型推理加速的主流技术路线之一,而 DFlash 通过 Block Diffusion 机制进一步优化了该方案。对关注推理性能优化的工程师有参考价值。