thu-ml

thu-ml / SageAttention

#7
3,397426+2 todayCuda

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升,且在语言、图像和视频模型上保持端到端指标无损。

📊 项目信息

语言
Cuda
Stars
3,397
Forks
426
今日新增
+2
排名
#7
收录
语言榜
趋势日期
2026年5月31日
最后推送
2026/1/17

🏷️ 标签

attentioncudaefficient-attentioninference-accelerationllmllm-inframlsysquantizationtritonvideo-generatevideo-generationvit

📸 截图

SageAttention screenshot 1SageAttention screenshot 2SageAttention screenshot 3