cuda-programming

There are 18 repositories under cuda-programming topic.

taskflow / taskflow
A General-purpose Task-parallel Programming System using Modern C++
concurrent-programming cuda-programming gpu-programming heterogeneous-parallel-programming high-performance-computing multi-threading multicore-programming multithreading parallel parallel-computing parallel-programming taskflow taskparallelism threadpool work-stealing
Language:C++ 11370
Rust-GPU / rust-cuda
Ecosystem of libraries and tools for writing and executing fast GPU code fully in Rust.
cuda cuda-kernels cuda-programming gpgpu gpu gpu-programming rust rust-lang
Language:Rust 4826
NVIDIA / cccl
CUDA Core Compute Libraries
accelerated-computing cpp cpp-programming cuda cuda-cpp cuda-kernels cuda-library cuda-programming gpu gpu-acceleration gpu-computing gpu-programming hpc nvidia nvidia-gpu parallel-algorithm parallel-computing parallel-programming modern-cpp
Language:C++ 2019
brucefan1983 / CUDA-Programming
Sample codes for my CUDA programming book
cuda-programming gpu-programming molecular-dynamics-simulation
Language:Cuda 1924
coreylowman / cudarc
Safe rust wrapper around CUDA toolkit
cuda cuda-programming cuda-toolkit gpu gpu-acceleration rust cublas curand cuda-kernels nvrtc cudnn nccl
Language:Rust 964
mit-han-lab / TinyChatEngine
TinyChatEngine: On-Device LLM Inference Library
arm c cpp cuda-programming deep-learning edge-computing large-language-models on-device-ai quantization x86-64
Language:C++ 921
eyalroz / cuda-api-wrappers
Thin, unified, C++-flavored wrappers for the CUDA APIs
api-wrapper cuda cuda-api-wrappers cuda-device cuda-driver cuda-driver-api cuda-programming cuda-runtime-api cuda-toolkit gpgpu gpgpu-computing gpu gpu-computing gpu-memory modern-cpp
Language:C++ 860
harleyszhang / llm_note
LLM notes, including model inference, transformer model structure, and llm framework code analysis notes.
llm llm-inference triton-kernels vllm cuda-programming kv-cache transformer-models
Language:Python 840
sail-sg / Adan
Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models
adan bert-model convnext deep-learning fairseq mae optimizer resnet timm vit transformer-xl artificial-intelligence diffusion dreamfusion gpt2 pytorch cuda-programming llm-training llms moe
Language:Python 802
PaddleJitLab / CUDATutorial
A self-learning tutorail for CUDA High Performance Programing.
cuda-programming deep-learning
Language:JavaScript 765
yassa9 / qwen600
Static suckless single batch CUDA-only qwen3-0.6B mini inference engine
cuda cuda-programming gpu llm llm-inference transformer llamacpp qwen qwen3
Language:Cuda 508
nosferalatu / SimpleGPUHashTable
A simple GPU hash table implemented in CUDA using lock free techniques
cuda data-structures gpu gpu-cuda-programs cuda-programming
Language:Cuda 401
jaredhoberock / stanford-cs193g-sp2010
This is an archive of materials produced for an introductory class on CUDA programming at Stanford University in 2010
cuda cuda-kernels cuda-programming gpu-programming
Language:C++ 225
HenryNdubuaku / cuda-tutorials
CUDA tutorials for Maths & ML tutorials with examples, covers multi-gpus, fused attention, winograd convolution, reinforcement learning.
cuda cuda-kernels cuda-programming machine-learning maths
Language:Cuda 198
MuGdxy / muda
μ-Cuda, COVER THE LAST MILE OF CUDA. With features: intellisense-friendly, structured launch, automatic cuda graph generation and updating.
cuda cuda-cpp cuda-programming
Language:C++ 194
tgautam03 / xGeMM
Accelerated General (FP32) Matrix Multiplication from scratch in CUDA
cuda-programming gpu-programming matrix-multiplication sgemm
Language:Cuda 166
ROCm / HIP-CPU
An implementation of HIP that works on CPUs, across OSes.
hip hip-runtime hip-portability hip-kernel-language cuda cuda-programming cpp17 stl-algorithms parallel-algorithms spmd
Language:C++ 127
SunsetQuest / CudaPAD
CudaPAD is a PTX/SASS viewer for NVIDIA Cuda kernels and provides an on-the-fly view of the assembly.
cuda cuda-programming gpu nvidia ptx ptx-utils windows
Language:C# 124
eyalroz / cuda-kat
CUDA kernel author's tools
cuda cuda-kernels utility-library utility-functions cpp11 constexpr algorithms patterns modern-cpp gpu-programming gpu elegant-coding cuda-library cuda-programming printf printf-functions
Language:Cuda 113
emptysoal / cuda-image-preprocess
Speed up image preprocess with cuda when handle image or tensorrt inference
cnn cuda-programming deep-learning image-processing tensorrt cuda cuda-demo cuda-kernels
Language:Cuda 79
goabiaryan / awesome-gpu-engineering
GPU Engineering for AI Systems
awesome awesome-lists cuda-programming gpu-programming kernels gpu-engineering
Language:HTML 78
CUDA-Guide
mikeroyal / CUDA-Guide
CUDA Guide
cuda gpu deep-learning machine-learning cuda-toolkit cuda-programming awesome awesome-list awesome-readme cuda-kernels cuda-library cuda-opengl cuda-support gpgpu-computing graphics-programming cuda-development cuda-driver gpgpu resources
Language:Cuda 74
CUDA-WSL2-Ubuntu
FahimFBA / CUDA-WSL2-Ubuntu
Install CUDA on Windows11 using WSL2
cuda cuda-programming cuda-support cuda-toolkit wsl wsl-environment wsl-ubuntu wsl2 cuda-wsl deep-learning deep-reinforcement-learning deeplearning deeplearning-ai machine-learning machinelearning machinelearning-python
Language:Jupyter Notebook 67
Accelsnow / gaussian-splatting-distwar
DISTWAR atomic reduction optimization on "3D Gaussian Splatting for Real-Time Radiance Field Rendering".
3d-gaussian-splatting cpp cuda-programming differentiable-rendering inverse-rendering pytorch computer-graphics computer-vision radiance-field
Language:Python 40
HuangCongQing / cuda-learning
cuda编程学习入门
cuda cuda-kernels cuda-programming
Language:Cuda 37
jerry060599 / KittenGpuLBVH
A high performance and friendly GPU LBVH implementation.
collision-detection cuda cuda-programming lbvh
Language:Cuda 34
toxy4ny / artaxerxes
Artaxerxes - Adaptive High-Performance Stress Tester v.1.0. Rebuild old version Xerxes DDoS. Supports GPU+io_uring, DPDK, eBPF/XDP with intelligent fallbacks. Educational tool for advanced cybersecurity labs
cuda cuda-programming cybersecurity cybersecurity-education cybersecurity-tools dpdk ebpf educational high-performance network-security network-security-tool penetration-testing penetration-testing-framework penetration-testing-tools security-tools stress-testing
Language:C 34
LinhanDai / yolov9-tensorrt
YOLOv9 Tensorrt deployment acceleration，provide two implementation methods: C++and Python🔥🔥🔥
cpp cuda-programming python tensorrt yolov9
Language:C++ 32
Koushikphy / Intro-to-CUDA-Fortran
A Complete beginner's introduction to programming with CUDA Fortran
cuda cuda-fortran cuda-kernels cuda-programming fortran fortran90 gpgpu gpu gpu-computing high-performance-computing hpc nvidia nvidia-cuda parallel-computing parallel-programming
31
PyBindToGPUs
ashvardanian / PyBindToGPUs
Parallel Computing starter project to build GPU & CPU kernels in CUDA & C++ and call them from Python without a single line of CMake using PyBind11
cmake cuda cuda-programming hip hpc matrix-multiplication openmp parallel-computing parallel-programming pybind pybind11 python starter-kit starter-template tutorial
Language:Cuda 30
coderonion / cuda-beginner-course-cpp-version
bilibili视频【CUDA 12.x 并行编程入门(C++版)】配套代码
cpp cuda cuda-programming gpu gpu-programming nvidia parallel-programming rust cudnn cublas nvcc python
Language:Cuda 30
xmba15 / ransac_lines_fitting_gpu
simple GPU ransac fitting of multiple lines on 2d/3d point cloud
ransac-linefit gpu-ransac thrust multiple-linefit cuda-programming line-fitting
Language:C++ 29
KarhouTam / cuda-kernels
Some common CUDA kernel implementations (Not the fastest).
cuda-kernels cuda-programming cuda-learning gemm layernorm relu softmax
Language:Cuda 28
StiffMa
fjramireg / StiffMa
StiffMa: Fast finite element STIFFness MAtrix generation in MATLAB by using GPU computing.
matlab gpu-computing gpu-acceleration finite-element-methods finite-element-analysis stiffness pde-solver nvidia-cuda cuda-kernels cuda-programming parallel-computing parallel-computing-toolbox
Language:MATLAB 26
Lin-Mao / DrGPUM
A memory profiler for NVIDIA GPUs to explore memory inefficiencies in GPU-accelerated applications.
cuda-programming gpu-memory gpu-memory-profiler gpu-profiler memory-management
Language:Python 26
flin3500 / Cuda-Google-Colab
The cuda code is mainly for nvidia hardware device. This repo will show how to run cuda c or cuda cpp code on the google colab platform for free.
cuda cuda-programming cuda-kernels cuda-demo colab colab-notebook parallel-computing
Language:Jupyter Notebook 25

cuda-programming

taskflow / taskflow

Rust-GPU / rust-cuda

NVIDIA / cccl

brucefan1983 / CUDA-Programming

coreylowman / cudarc

mit-han-lab / TinyChatEngine

eyalroz / cuda-api-wrappers

harleyszhang / llm_note

sail-sg / Adan

PaddleJitLab / CUDATutorial

yassa9 / qwen600

nosferalatu / SimpleGPUHashTable

jaredhoberock / stanford-cs193g-sp2010

HenryNdubuaku / cuda-tutorials

MuGdxy / muda

tgautam03 / xGeMM

ROCm / HIP-CPU

SunsetQuest / CudaPAD

eyalroz / cuda-kat

emptysoal / cuda-image-preprocess

goabiaryan / awesome-gpu-engineering

mikeroyal / CUDA-Guide

FahimFBA / CUDA-WSL2-Ubuntu

Accelsnow / gaussian-splatting-distwar

HuangCongQing / cuda-learning

jerry060599 / KittenGpuLBVH

toxy4ny / artaxerxes

LinhanDai / yolov9-tensorrt

Koushikphy / Intro-to-CUDA-Fortran

ashvardanian / PyBindToGPUs

coderonion / cuda-beginner-course-cpp-version

xmba15 / ransac_lines_fitting_gpu

KarhouTam / cuda-kernels

fjramireg / StiffMa

Lin-Mao / DrGPUM

flin3500 / Cuda-Google-Colab