用 Cuda 编写的库

instant-ngp

即时神经图形基元:快如闪电的 NeRF 等。
  • 13.4k
  • GNU General Public License v3.0

deep-high-resolution-net.pytorch

该项目是我们 CVPR2019 论文“Deep High-Resolution Representation Learning for Human Pose Estimation”的正式实现。
  • 4.1k
  • MIT

cub

CUDA C++ 的协作原语。 (由 NVIDIA 提供)。
  • 1.5k
  • BSD 3-clause "New" or "Revised"

cugraph

cuGraph - RAPIDS 图形分析库。
  • 1.3k
  • Apache License 2.0

blocksparse

用于块稀疏矩阵乘法和卷积的高效 GPU 内核。
  • 948
  • MIT

k2

FSA/FST 算法,可微分,具有 PyTorch 兼容性。
  • 927
  • Apache License 2.0

nv-wavenet

实时自回归波网推理的参考实现。
  • 700
  • BSD 3-clause "New" or "Revised"

nvParse

基于 GPU 的快速 CSV 解析器。
  • 550
  • Apache License 2.0

instant-ngp-Windows

即时神经图形基元:快如闪电的 NeRF 等。
  • 458
  • GNU General Public License v3.0

nccl-tests

NCCL 测试。
  • 436
  • BSD 3-clause "New" or "Revised"

MegBA

MegBA:基于 GPU 的大规模捆绑调整分布式库。
  • 368
  • Apache License 2.0

raft

RAFT 包含数据科学、图形和机器学习的广泛使用的基本算法和原语。 (由rapidsai)。
  • 278
  • Apache License 2.0

dietgpu

快速广义 ANS(非对称数字系统)熵编码器和解码器的 GPU 实现,以及 HPC/ML 应用程序中数字和其他数据类型的无损压缩扩展。
  • 247
  • MIT

TorchPQ

在 pytorch 和 cuda 中的 GPU 上使用乘积量化进行近似最近邻搜索。
  • 173
  • MIT

Lantern

  • 163
  • BSD 3-clause "New" or "Revised"

RWKV-CUDA

RWKV 语言模型的 CUDA 版本 (https://github.com/BlinkDL/RWKV-LM)。
  • 113

cuhnsw

分层可导航小世界图算法的 CUDA 实现。
  • 88
  • Apache License 2.0

CUB

此存储库已移至 github.com/nvidia/cub,此处自动镜像..
  • 71
  • BSD 3-clause "New" or "Revised"

array-language-comparisons

数组语言和库的比较:APL、J、BQN、Q、Julia、R、NumPy、Nial、Futhark、SaC 和 ArrayFire..
  • 60
  • MIT

mish-cuda

PyTorch 的 Mish 激活函数(由 JunnYu 提供)。
  • 48
  • MIT

rocm-examples

  • 39
  • MIT

xgboost-node

运行 XGBoost 模型并在 Node.js 中进行预测。
  • 33
  • GNU General Public License v3.0

CUDA-Guide

CUDA Guide.
  • 29

kobra

以研究为导向的游戏引擎,探索最先进的渲染技术(由 vedavamadathil 开发)。
  • 21

CryptoGPU

加密货币价格分析。
  • 16

LSQR-CUDA

这是由 Lawrence Ayers 在达姆施塔特工业大学 GRIS 研究所的 Stefan Guthe 的监督下编写的 LSQR-CUDA 实现。 LSQR 库的作者是 Chris Paige 和 Michael Saunders。
  • 11
  • MIT

SBNN

基于 GPU 位运算的奇异二值化神经网络(请参阅我们的 SC-19 论文)。
  • 10
  • GNU General Public License v3.0

GCGT

论文源代码:基于 GPU 的压缩图遍历。
  • 7
  • MIT

FirstCollisionTimestepRarefiedGasSimulator

该模拟器计算粒子模型的非常小的时间步长的所有可能的交点。
  • 2

DOKSparse

GPU、pytorch 上的稀疏 DOK 张量。
  • 1
  • MIT