cuda-core

There are 0 repository under cuda-core topic.

Bruce-Lee-LY / cuda_hgemv
Several optimization methods of half-precision general matrix vector multiplication (HGEMV) using CUDA core.
cublas cuda gemm gemv gpu hgemm matrix-multiply nvidia tensor-core cuda-core hgemv
Language:Cuda 48
Bruce-Lee-LY / decoding_attention
Decoding Attention is specially optimized for multi head attention (MHA) using CUDA core for the decoding stage of LLM inference.
cuda cuda-core decoding-attention gpu inference llm mha multi-head-attention nvidia large-language-model flash-attention flashinfer
Language:C++ 23

Bruce-Lee-LY / cuda_hgemv