Cuda 热门项目

llm.c

基于纯C/CUDA的简易大语言模型训练

LeetCUDA

📚LeetCUDA：面向初学者的现代CUDA学习笔记（基于PyTorch）🐑，包含200+个CUDA内核、张量核心、HGEMM、FA-2 MMA。🎉

11,5731,206+4

cudacuda-12cuda-cppcuda-democuda-kernel

DeepGEMM

DeepGEMM：具备细粒度缩放功能的精简高效FP8通用矩阵乘内核

7,5271,118+3

DeepEP

DeepEP：高效的专家并行通信库

nccl-tests

NCCL测试套件

cuopt

GPU加速决策优化

977209+2

instant-ngp

即时神经图形原语：极速神经辐射场（NeRF）及其他技术

17,4932,066+2

3d-reconstructioncomputer-graphicscomputer-visioncudafunction-approximation

rtp-llm

RTP-LLM：阿里巴巴面向多样化应用的高性能大语言模型推理引擎。

1,279238+2

cuvs

cuVS - 一个用于GPU上的向量搜索与聚类的库

816211+1

brucefan1983 /

GPUMD

图形处理器分子动力学

812199+1

cudagpugpumdheat-transporthigh-performance-computing

raft

RAFT 包含用于机器学习和信息检索的基础性、广泛使用的算法与原语。这些算法经过 CUDA 加速，构成了更轻松编写高性能应用程序的构建模块。

1,029241+1

nvbench

CUDA内核基准测试库

899112+1

SageAttention

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升，且在语言、图像和视频模型上保持端到端指标无损。

3,491444+1

attentioncudaefficient-attentioninference-accelerationllm

cugraph

#17

cuGraph - RAPIDS 图分析库

2,207362

HigherOrderCO /

HVM2

一个基于Rust的大规模并行、最优函数运行时

11,324438

causal-conv1d

支持PyTorch接口的CUDA因果深度wise一维卷积实现

919199

cuCollections

cub

[已归档] CUDA C++协同原语参见https://github.com/NVIDIA/cccl

1,840462

warp-ctc

快速并行连接时序分类算法

llm.c

基于纯C/CUDA的简易大语言模型训练

30,5653,700+7

SageAttention

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升，且在语言、图像和视频模型上保持端到端指标无损。

3,490444+4

attentioncudaefficient-attentioninference-accelerationllm

mirage-project /

mirage

#17

Mirage持久化内核：将大语言模型编译为单一巨型内核

2,375231+3

instant-ngp

#19

即时神经图形原语：极速神经辐射场（NeRF）及其他技术

17,4922,066+2

3d-reconstructioncomputer-graphicscomputer-visioncudafunction-approximation

rtp-llm

RTP-LLM：阿里巴巴面向多样化应用的高性能大语言模型推理引擎。

1,277238+2

DeepGEMM

DeepGEMM：具备细粒度缩放功能的精简高效FP8通用矩阵乘内核

7,5241,116+2

cub

[已归档] CUDA C++协同原语参见https://github.com/NVIDIA/cccl

1,840462+1

nvbench

CUDA内核基准测试库

898111+1

ThunderKittens

高性能核函数切片原语

3,548311+1

nccl-tests

NCCL测试套件

1,593392+1

cugraph-gnn

cuopt

#18

GPU加速决策优化

974209

raft

RAFT 包含用于机器学习和信息检索的基础性、广泛使用的算法与原语。这些算法经过 CUDA 加速，构成了更轻松编写高性能应用程序的构建模块。

1,028241

cuCollections

warp-ctc

快速并行连接时序分类算法

causal-conv1d

支持PyTorch接口的CUDA因果深度wise一维卷积实现

919198

siboehm /

SGEMM_CUDA

从零开始的快速CUDA矩阵乘法

1,254203

cuvs

cuVS - 一个用于GPU上的向量搜索与聚类的库

cugraph

cuGraph - RAPIDS 图分析库

2,207362

DeepEP

DeepEP：高效的专家并行通信库

ThunderKittens

高性能核函数切片原语

DeepEP

DeepEP：高效的专家并行通信库

9,8581,323+7

llm.c

基于纯C/CUDA的简易大语言模型训练

DeepGEMM

DeepGEMM：具备细粒度缩放功能的精简高效FP8通用矩阵乘内核

7,5231,116+5

siboehm /

SGEMM_CUDA

从零开始的快速CUDA矩阵乘法

nccl-tests

NCCL测试套件

1,592392+3

rtp-llm

RTP-LLM：阿里巴巴面向多样化应用的高性能大语言模型推理引擎。

1,275235+3

cuopt

GPU加速决策优化

974209+2

nvbench

#19

CUDA内核基准测试库

897111+1

instant-ngp

即时神经图形原语：极速神经辐射场（NeRF）及其他技术

17,4912,066+1

3d-reconstructioncomputer-graphicscomputer-visioncudafunction-approximation

HigherOrderCO /

HVM2

一个基于Rust的大规模并行、最优函数运行时

11,322438+1

SageAttention

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升，且在语言、图像和视频模型上保持端到端指标无损。

3,486444+1

attentioncudaefficient-attentioninference-accelerationllm

causal-conv1d

支持PyTorch接口的CUDA因果深度wise一维卷积实现

919198+1

brucefan1983 /

GPUMD

图形处理器分子动力学

811198

cudagpugpumdheat-transporthigh-performance-computing

cub

[已归档] CUDA C++协同原语参见https://github.com/NVIDIA/cccl

1,839462

cudf-spark-jni

适用于Apache Spark的RAPIDS加速器JNI

6187

cuCollections

warp-ctc

快速并行连接时序分类算法

4,0671,028

cuvs

cuVS - 一个用于GPU上的向量搜索与聚类的库

2026年7月15日周三

llm.c

基于纯C/CUDA的简易大语言模型训练

30,5573,699+8

DeepEP

DeepEP：高效的专家并行通信库

9,8521,320+6

DeepGEMM

DeepGEMM：具备细粒度缩放功能的精简高效FP8通用矩阵乘内核

7,5181,112+6

ThunderKittens

高性能核函数切片原语

3,538311+3

nccl-tests

NCCL测试套件

1,589390+3

cugraph

#17

cuGraph - RAPIDS 图分析库

2,207362+1

instant-ngp

即时神经图形原语：极速神经辐射场（NeRF）及其他技术

17,4912,067+1

3d-reconstructioncomputer-graphicscomputer-visioncudafunction-approximation

BBuf /

how-to-optim-algorithm-in-cuda

如何在CUDA中优化某些算法

cuopt

GPU加速决策优化

972209

brucefan1983 /

GPUMD

图形处理器分子动力学

811197

cudagpugpumdheat-transporthigh-performance-computing

princeton-vl /

lietorch

cudf-spark-jni

适用于Apache Spark的RAPIDS加速器JNI

6187

SageAttention

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升，且在语言、图像和视频模型上保持端到端指标无损。

3,485444

attentioncudaefficient-attentioninference-accelerationllm

cuCollections

warp-ctc

快速并行连接时序分类算法

4,0671,028

causal-conv1d

支持PyTorch接口的CUDA因果深度wise一维卷积实现

918198

cuvs

cuVS - 一个用于GPU上的向量搜索与聚类的库

2026年7月14日周二

llm.c

基于纯C/CUDA的简易大语言模型训练

DeepGEMM

DeepGEMM：具备细粒度缩放功能的精简高效FP8通用矩阵乘内核

7,5111,110+7

causal-conv1d

支持PyTorch接口的CUDA因果深度wise一维卷积实现

918198+3

ThunderKittens

高性能核函数切片原语

nccl-tests

NCCL测试套件

1,586390+3

rtp-llm

#18

RTP-LLM：阿里巴巴面向多样化应用的高性能大语言模型推理引擎。

1,269233+2

siboehm /

SGEMM_CUDA

从零开始的快速CUDA矩阵乘法

SageAttention

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升，且在语言、图像和视频模型上保持端到端指标无损。

3,485443+2

attentioncudaefficient-attentioninference-accelerationllm

DeepEP

DeepEP：高效的专家并行通信库

9,8451,320+2

cub

[已归档] CUDA C++协同原语参见https://github.com/NVIDIA/cccl

1,839462+1

raft

#20

RAFT 包含用于机器学习和信息检索的基础性、广泛使用的算法与原语。这些算法经过 CUDA 加速，构成了更轻松编写高性能应用程序的构建模块。

1,028240

mirage-project /

mirage

#19

Mirage持久化内核：将大语言模型编译为单一巨型内核

2,368229

cugraph

cuGraph - RAPIDS 图分析库

2,206362

cuvs

cuVS - 一个用于GPU上的向量搜索与聚类的库

cuCollections

warp-ctc

快速并行连接时序分类算法

4,0671,029

nvbench

CUDA内核基准测试库

896111

rahul-goel /

fused-ssim

闪电般快速的可微分结构相似性算法。

23382

cuopt

GPU加速决策优化

974209

instant-ngp

即时神经图形原语：极速神经辐射场（NeRF）及其他技术

17,4902,067

3d-reconstructioncomputer-graphicscomputer-visioncudafunction-approximation

2026年7月13日周一

llm.c

基于纯C/CUDA的简易大语言模型训练

30,5423,696+6

instant-ngp

即时神经图形原语：极速神经辐射场（NeRF）及其他技术

17,4902,067+5

3d-reconstructioncomputer-graphicscomputer-visioncudafunction-approximation

SageAttention

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升，且在语言、图像和视频模型上保持端到端指标无损。

3,483443+5

attentioncudaefficient-attentioninference-accelerationllm

cuvs

cuVS - 一个用于GPU上的向量搜索与聚类的库

815210+4

DeepGEMM

DeepGEMM：具备细粒度缩放功能的精简高效FP8通用矩阵乘内核

7,5041,106+3

DeepEP

DeepEP：高效的专家并行通信库

mirage

Mirage持久化内核：将大语言模型编译为单一巨型内核

2,368229+2

ThunderKittens

高性能核函数切片原语

3,532309+2

cuopt

GPU加速决策优化

974209+2

cub

[已归档] CUDA C++协同原语参见https://github.com/NVIDIA/cccl

1,838462+2

cugraph

cuGraph - RAPIDS 图分析库

2,206362+2

causal-conv1d

支持PyTorch接口的CUDA因果深度wise一维卷积实现

915198+1

rahul-goel /

fused-ssim

闪电般快速的可微分结构相似性算法。

sppark

零知识模板库

22098+1

bls12-377bls12-381cudanttpasta-curves

warp-ctc

快速并行连接时序分类算法

4,0671,029+1

nccl-tests

NCCL测试套件

cuCollections

2026年7月12日周日

llm.c

基于纯C/CUDA的简易大语言模型训练

30,5383,694+6

mirage-project /

mirage

Mirage持久化内核：将大语言模型编译为单一巨型内核

2,367229+2

instant-ngp

即时神经图形原语：极速神经辐射场（NeRF）及其他技术

17,4862,067+2

3d-reconstructioncomputer-graphicscomputer-visioncudafunction-approximation

ThunderKittens

高性能核函数切片原语

3,530308+2

BBuf /

how-to-optim-algorithm-in-cuda

如何在CUDA中优化某些算法

raft

RAFT 包含用于机器学习和信息检索的基础性、广泛使用的算法与原语。这些算法经过 CUDA 加速，构成了更轻松编写高性能应用程序的构建模块。

1,027240+1

SageAttention

量化注意力机制相比FlashAttention和xformers实现了2-5倍和3-11倍的速度提升，且在语言、图像和视频模型上保持端到端指标无损。

3,478442+1

attentioncudaefficient-attentioninference-accelerationllm

rtp-llm

RTP-LLM：阿里巴巴面向多样化应用的高性能大语言模型推理引擎。

1,267231

causal-conv1d

支持PyTorch接口的CUDA因果深度wise一维卷积实现

914198

nvbench

CUDA内核基准测试库

896110

cuCollections

supranational /

sppark

零知识模板库

21997

bls12-377bls12-381cudanttpasta-curves

cuopt

GPU加速决策优化

971208

cub

[已归档] CUDA C++协同原语参见https://github.com/NVIDIA/cccl

1,836462

warp-ctc

快速并行连接时序分类算法

4,0661,029

cuvs

cuVS - 一个用于GPU上的向量搜索与聚类的库

810210