Tag: 推理加速
All the articles with the tag "推理加速".
- 6.0
z-lab / dflash
DFlash — 基于 Block Diffusion 的 Flash Speculative Decoding 推理加速方案,Python 实现
- 7.0
Cerebras CS-3 登陆 AWS Bedrock:5x 推理速度背后的解耦代价
Cerebras 将 WSE 芯片与 AWS Trainium 组合部署,实现 3000 tokens/sec 解码吞吐,但要求开发者重构推理管线架构