thu-ml

thu-ml / SageAttention

#11
3,411427+1 todayCuda

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升,且在语言、图像和视频模型上保持端到端指标无损。

📊 项目信息

语言
Cuda
Stars
3,411
Forks
427
今日新增
+1
排名
#11
收录
语言榜
趋势日期
2026年6月5日
最后推送
2026/1/17

🏷️ 标签

attentioncudaefficient-attentioninference-accelerationllmllm-inframlsysquantizationtritonvideo-generatevideo-generationvit

📸 截图

SageAttention screenshot 1SageAttention screenshot 2SageAttention screenshot 3