justheuristic

Scripts for fine-tuning Llama2 with composable FSDP & PEFT methods to cover single/multi-node GPUs. Supports default & custom datasets for applications such as summarization & question answering. Supporting a number of candid inference solutions such as HF TGI, VLLM for local or cloud deployment.Demo apps to showcase Llama2 for WhatsApp & Messenger

Language:Jupyter NotebookNOASSERTION7850 68 227

StableCascade

Official Code for Stable Cascade

Language:Jupyter NotebookMIT6382 58 117

GitTorrent

A decentralization of GitHub using BitTorrent and Bitcoin

Language:JavaScriptMIT4743 234 63

AutoGPTQ

An easy-to-use LLMs quantization package with user-friendly apis, based on GPTQ algorithm.

Language:PythonMIT3921 34 422

alpa

Training and serving large-scale neural networks with auto parallelization.

Language:PythonApache-2.02995 45 295

GPTQ-for-LLaMa

4 bits quantization of LLaMA using GPTQ

Language:PythonApache-2.02931 42 216

mixtral-offloading

Run Mixtral-8x7B models in Colab or consumer desktops

Language:PythonMIT2262 30 25

llm-awq

[MLSys 2024 Best Paper Award] AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

Language:PythonMIT1939 23 149

ytsaurus

YTsaurus is a scalable and fault-tolerant open-source big data platform.

Language:C++Apache-2.01777 30 289

aesara

Aesara is a Python library for defining, optimizing, and efficiently evaluating mathematical expressions involving multi-dimensional arrays.

Language:PythonNOASSERTION1165 20 692

FBGEMM

FB (Facebook) + GEMM (General Matrix-Matrix Multiplication) - https://code.fb.com/ml-applications/fbgemm/

Language:C++NOASSERTION1084 52 137

AQLM

Official Pytorch repository for Extreme Compression of Large Language Models via Additive Quantization https://arxiv.org/pdf/2401.06118.pdf

Language:PythonApache-2.0872 18 51

SpQR

Language:PythonApache-2.0512 22 21

hqq

Official implementation of Half-Quadratic Quantization (HQQ)

Language:PythonApache-2.0509 14 56

quip-sharp

Language:PythonGPL-3.0434 10 44

H2O

[NeurIPS'23] H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models.

Language:Python295 5 27

knn-transformers

PyTorch + HuggingFace code for RetoMaton: "Neuro-Symbolic Language Modeling with Automaton-augmented Retrieval" (ICML 2022), including an implementation of kNN-LM and kNN-MT

Language:PythonMIT265 4 11