cuda-kernels

There are 16 repositories under cuda-kernels topic.

NVIDIA / cuda-samples
Samples for CUDA Developers which demonstrates features in CUDA Toolkit
cuda cuda-driver-api cuda-kernels cuda-opengl
Language:C 7099
InternLM / lmdeploy
LMDeploy is a toolkit for compressing, deploying, and serving LLMs.
codellama cuda-kernels deepspeed fastertransformer internlm llama llama2 llama3 llm llm-inference turbomind
Language:Python 5837
CUDA-Learn-Notes
DefTruth / CUDA-Learn-Notes
📚200+ Tensor/CUDA Cores Kernels, ⚡️flash-attn-mma, ⚡️hgemm with WMMA, MMA and CuTe (98%~100% TFLOPS of cuBLAS/FA2 🎉🎉).
cuda cuda-kernels cuda-programming cuda-toolkit cudnn cutlass flash-attention flash-mla gemm gemv hgemm
Language:Cuda 2824
coreylowman / dfdx
Deep learning in Rust, with shape checked tensors and neural networks
rust autograd autodiff machine-learning neural-network autodifferentiation rust-lang backpropagation tensor deep-learning deep-neural-networks cuda cuda-kernels cuda-support cuda-toolkit gpu gpu-acceleration gpu-computing cudnn
Language:Rust 1789
NVIDIA / cccl
CUDA Core Compute Libraries
accelerated-computing cpp cpp-programming cuda cuda-cpp cuda-kernels cuda-library cuda-programming gpu gpu-acceleration gpu-computing gpu-programming hpc modern-cpp nvidia nvidia-gpu parallel-algorithm parallel-computing parallel-programming
Language:C++ 1526
coreylowman / cudarc
Safe rust wrapper around CUDA toolkit
cuda cuda-programming cuda-toolkit gpu gpu-acceleration rust cublas curand cuda-kernels nvrtc cudnn nccl
Language:Rust 747
NVIDIA / nvbench
CUDA Kernel Benchmarking Library
benchmark cuda cuda-kernels gpu kernel-benchmark nvidia performance
Language:Cuda 588
harrism / hemi
Simple utilities to enable code reuse and portability between CUDA C/C++ and standard C/C++.
c-plus-plus cuda cuda-device cuda-kernels gpu hemi
Language:C++ 346
kernel_tuner
KernelTuner / kernel_tuner
Kernel Tuner
auto-tuning autotuning c cplusplus cuda cuda-kernels gpu gpu-computing kernel-tuner machine-learning opencl opencl-kernels optimization python software-development testing
Language:Python 324
jaredhoberock / stanford-cs193g-sp2010
This is an archive of materials produced for an introductory class on CUDA programming at Stanford University in 2010
cuda cuda-kernels cuda-programming gpu-programming
Language:C++ 215
HMUNACHI / cuda-repo
From zero to hero CUDA for accelerating maths and machine learning on GPU.
cuda cuda-kernels cuda-programming machine-learning maths
Language:Cuda 180
deepakkumar1984 / Amplifier.NET
Amplifier allows .NET developers to easily run complex applications with intensive mathematical computation on Intel CPU/GPU, NVIDIA, AMD without writing any additional C kernel code. Write your function in .NET and Amplifier will take care of running it on your favorite hardware.
compiler cuda-kernels gpgpu gpgpu-computing gpgpu-sim opencl opencl-kernels simd
Language:C# 178
PatWie / cuda-design-patterns
Some CUDA design patterns and a bit of template magic for CUDA
bazel cpp11 cuda cuda-development cuda-device cuda-kernels cuda-utils gpu template-metaprogramming
Language:C++ 149
tudelft / cuSNN
Spiking Neural Networks in C++ with strong GPU acceleration through CUDA
cuda cuda-kernels neural-network spiking-neural-networks
Language:Cuda 126
eyalroz / cuda-kat
CUDA kernel author's tools
cuda cuda-kernels utility-library utility-functions cpp11 constexpr algorithms patterns modern-cpp gpu-programming gpu elegant-coding cuda-library cuda-programming printf printf-functions
Language:Cuda 110
Accera
microsoft / Accera
Open source cross-platform compiler for compute-intensive loops used in AI algorithms, from Microsoft Research
cross-platform loop-fusion loop-unrolling python-library optimization-framework research machine-learning-algorithms gpu-acceleration cpu-scheduling tuning-parameters cross-compiler loop-scheduling compiler rocm-kernel cuda-kernels
Language:C++ 110
wangsiping97 / FastGEMV
High-speed GEMV kernels, at most 2.7x speedup compared to pytorch baseline.
cuda cuda-kernels machine-learning optimization
Language:Cuda 100
alexzhang13 / flashattention2-custom-mask
Triton implementation of FlashAttention2 that adds Custom Masks.
attention attention-mechanism cuda-kernels deep-learning flash-attention flash-attention-2 triton triton-lang
Language:Python 99
yalue / cuda_scheduling_examiner_mirror
A tool for examining GPU scheduling behavior.
benchmark cuda cuda-kernels gpu-scheduling gpu mandelbrot
Language:Cuda 73
emptysoal / cuda-image-preprocess
Speed up image preprocess with cuda when handle image or tensorrt inference
cnn cuda-programming deep-learning image-processing tensorrt cuda cuda-demo cuda-kernels
Language:Cuda 62
CUDA-Guide
mikeroyal / CUDA-Guide
CUDA Guide
cuda gpu deep-learning machine-learning cuda-toolkit cuda-programming awesome awesome-list awesome-readme cuda-kernels cuda-library cuda-opengl cuda-support gpgpu-computing graphics-programming cuda-development cuda-driver gpgpu resources
Language:Cuda 62
bgin / Radar-ElectroOptical-Simulation
(REOS) Radar and Electro-Optical Simulation Framework written in C++.
simd-instructions avx512 avx2 avx vectorization high-performance-computing control-theory gpu-acceleration cuda-kernels amd-gpu modelling fortran90 radar atmosphere-model simulation infrared-sensors radiative-transfer radar-signal-processing
Language:C++ 58
STEllAR-GROUP / octotiger
Astrophysics program simulating the evolution of star systems based on the fast multipole method on adaptive Octrees
astrophysics cuda cuda-kernels hpx kokkos simd stellar-mergers sycl
Language:C++ 51
p-sto / ConjugateGradients
Implementation of ConjugateGradients method using C and Nvidia CUDA
conjugate-gradient nvidia-cuda numerical-methods gpgpu cuda-kernels numpy linear-equations mkl-pardiso c
Language:Python 50
bgin / Radar_ElectroOptical_Simulation
(REOS) Radar and ElectroOptical Simulation Framework written in Fortran.
radar simulation avx-512 avx2 avx simd openmp high-performance-computing modeling vectorization cuda-kernels gpu-acceleration amdgpu fortran90 c99 infrared-sensors radiative-transfer
Language:Fortran 48
evlasblom / cuda-opencv-examples
Using custom CUDA kernels with Open CV Mat objects.
cuda cuda-kernels opencv
Language:Cuda 36
HuangCongQing / cuda-learning
cuda编程学习入门
cuda cuda-kernels cuda-programming
Language:Cuda 34
conradsnicta / bandicoot-code
Bandicoot: C++ library for GPU linear algebra & scientific computing - https://coot.sourceforge.io
c-plus-plus opencl gpu opencl-kernels matrix-functions matrix-library armadillo linear-algebra linear-algebra-library scientific-computing machine-learning clblas cublas cuda cuda-kernels cusolver gpu-accelerated-library gpu-acceleration gpu-computing
29
aredden / torch-bnb-fp4
Faster Pytorch bitsandbytes 4bit fp4 nn.Linear ops
cuda-kernels python pytorch pytorch-extension quantization
Language:Python 27
CUDA-PCA-jacobi
arneish / CUDA-PCA-jacobi
CUDA C implementation of Principal Component Analysis (PCA) through Singular Value Decomposition (SVD) using a highly parallelisable version of the Jacobi eigenvalue algorithm.
cuda cuda-kernels pca-analysis principal-component-analysis svd gpu parallel-programming c jacobi-eigenvalues hpc gpu-computing
Language:Cuda 26
rnowotniak / qopt
Quantum-inspired evolutionary algorithms for Optimization problems
algorithms cuda cuda-kernels python optimization-algorithms evolutionary-algorithms genetic-algorithm quantum-computing quantum-inspired-genetic-algorithm c cpp cython numerical-optimization
Language:C++ 26
henryfriedlander / CUDA-LBM-simulator
This is a Lattice-Boltzmann simulation using CUDA GPU graphics optimization.
cuda cuda-kernels opengl visual-studio lattice-boltzmann computational-fluid-dynamics
Language:Cuda 25
StiffMa
fjramireg / StiffMa
StiffMa: Fast finite element STIFFness MAtrix generation in MATLAB by using GPU computing.
matlab gpu-computing gpu-acceleration finite-element-methods finite-element-analysis stiffness pde-solver nvidia-cuda cuda-kernels cuda-programming parallel-computing parallel-computing-toolbox
Language:MATLAB 24
flin3500 / Cuda-Google-Colab
The cuda code is mainly for nvidia hardware device. This repo will show how to run cuda c or cuda cpp code on the google colab platform for free.
cuda cuda-programming cuda-kernels cuda-demo colab colab-notebook parallel-computing
Language:Jupyter Notebook 24
yoyoberenguer / PygameShader
2D Game texture special effects
pygame shaders special-effects effects 2d 2d-graphics image-processing cuda cuda-kernels cupy gpu graphics openmp game game-2d game-development game-library indiegame
Language:Cython 24
m-a-n-i-f-e-s-t / power-attention
Attention Kernels for Symmetric Power Transformers
cuda-kernels deep-learning llms
Language:C++ 23

cuda-kernels

NVIDIA / cuda-samples

InternLM / lmdeploy

DefTruth / CUDA-Learn-Notes

coreylowman / dfdx

NVIDIA / cccl

coreylowman / cudarc

NVIDIA / nvbench

harrism / hemi

KernelTuner / kernel_tuner

jaredhoberock / stanford-cs193g-sp2010

HMUNACHI / cuda-repo

deepakkumar1984 / Amplifier.NET

PatWie / cuda-design-patterns

tudelft / cuSNN

eyalroz / cuda-kat

microsoft / Accera

wangsiping97 / FastGEMV

alexzhang13 / flashattention2-custom-mask

yalue / cuda_scheduling_examiner_mirror

emptysoal / cuda-image-preprocess

mikeroyal / CUDA-Guide

bgin / Radar-ElectroOptical-Simulation

STEllAR-GROUP / octotiger

p-sto / ConjugateGradients

bgin / Radar_ElectroOptical_Simulation

evlasblom / cuda-opencv-examples

HuangCongQing / cuda-learning

conradsnicta / bandicoot-code

aredden / torch-bnb-fp4

arneish / CUDA-PCA-jacobi

rnowotniak / qopt

henryfriedlander / CUDA-LBM-simulator

fjramireg / StiffMa

flin3500 / Cuda-Google-Colab

yoyoberenguer / PygameShader

m-a-n-i-f-e-s-t / power-attention