Beast code in Giters

FSA's repositories

An efficient GPU support for LLM inference with x-bit quantization (e.g. FP6,FP5).

Language:CudaApache-2.016200

Public repo for HF blog posts

Language:Jupyter Notebook000

Webpage for FSA

Language:HTML100

Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity

Apache-2.0100

Language:PythonMIT1200

Conference talks given by FSA Lab, University of Sydney

000