DeepInto
首页
GitHub 热榜
工具
标签
中文
English
日本語
한국어
Deutsch
Français
Español
Português
Русский
返回
/
thu-ml/SageAttention
/
热榜历史
thu-ml /
SageAttention
#5
3,401
425
+4 today
Cuda
在 GitHub 上查看
项目概览
量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升,且在语言、图像和视频模型上保持端到端指标无损。
📊 项目信息
语言
Cuda
Stars
⭐ 3,401
Forks
425
今日新增
+4
排名
#5
收录
语言榜
趋势日期
2026年6月1日
最后推送
2026/1/17
🏷️ 标签
attention
cuda
efficient-attention
inference-acceleration
llm
llm-infra
mlsys
quantization
triton
video-generate
video-generation
vit
📸 截图