Beast code in Giters

Michael Mi's repositories

minitf

Simplified version of Tensorflow for learning purposes.

Language:Jupyter NotebookNOASSERTION3 2 1

attention_learning

Language:Python1 20

ScaleLLM

A high-performance inference system for large language models, designed for production environments.

Language:C++Apache-2.0100

cutlass

CUDA Templates for Linear Algebra Subroutines

Language:C++NOASSERTION000

flash_attention_inference

Performance of the C++ interface of flash attention, flash attention v2 and self quantized decoding attention in large language model (LLM) inference scenarios.

Language:C++MIT000

flashinfer

FlashInfer: Kernel Library for LLM Serving

Language:CudaApache-2.0000

LookaheadDecoding

Language:Python000

MatmulTutorial

A Easy-to-understand TensorOp Matmul Tutorial

Language:C++Apache-2.0000