thu-ml / SageAttention

#11

3,411427+1 todayCuda

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升，且在语言、图像和视频模型上保持端到端指标无损。

attentioncudaefficient-attentioninference-accelerationllmllm-inframlsysquantizationtritonvideo-generatevideo-generationvit