thu-ml

thu-ml / SageAttention

#5
3,401425+4 todayCuda

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升,且在语言、图像和视频模型上保持端到端指标无损。

📊 项目信息

语言
Cuda
Stars
3,401
Forks
425
今日新增
+4
排名
#5
收录
语言榜
趋势日期
2026年6月1日
最后推送
2026/1/17

🏷️ 标签

attentioncudaefficient-attentioninference-accelerationllmllm-inframlsysquantizationtritonvideo-generatevideo-generationvit

📸 截图

SageAttention screenshot 1SageAttention screenshot 2SageAttention screenshot 3