post-training-quantization

There are 5 repositories under post-training-quantization topic.

666DZY666 / micronet
micronet, a model compression and deploy lib. compression: 1、quantization: quantization-aware-training(QAT), High-Bit(>2b)(DoReFa/Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference)、Low-Bit(≤2b)/Ternary and Binary(TWN/BNN/XNOR-Net); post-training-quantization(PTQ), 8-bit(tensorrt); 2、 pruning: normal、regular and group convolutional channel pruning; 3、 group convolution structure; 4、batch-normalization fuse for quantization. deploy: tensorrt, fp32/fp16/int8(ptq-calibration)、op-adapt(upsample)、dynamic_shape
batch-normalization-fuse bnn convolutional-networks dorefa group-convolution integer-arithmetic-only model-compression network-in-network network-slimming neuromorphic-computing onnx post-training-quantization pruning pytorch quantization quantization-aware-training tensorrt tensorrt-int8-python twn xnor-net
Language:Python 2204
intel / neural-compressor
SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime
low-precision pruning sparsity auto-tuning knowledge-distillation quantization quantization-aware-training post-training-quantization smoothquant large-language-models awq fp4 gptq int4 int8 mxformat sparsegpt
Language:Python 2089
alibaba / TinyNeuralNetwork
TinyNeuralNetwork is an efficient and easy-to-use deep learning model compression framework.
pytorch deep-learning model-compression pruning model-converter quantization-aware-training deep-neural-networks post-training-quantization
Language:Python 729
SqueezeAILab / SqueezeLLM
[ICML 2024] SqueezeLLM: Dense-and-Sparse Quantization
efficient-inference large-language-models llm model-compression natural-language-processing post-training-quantization quantization text-generation transformer llama localllm small-models
Language:Python 604
megvii-research / Sparsebit
A model compression and acceleration toolbox based on pytorch.
deep-learning post-training-quantization pruning quantization quantization-aware-training sparse tensorrt
Language:Python 324
Xiuyu-Li / q-diffusion
[ICCV 2023] Q-Diffusion: Quantizing Diffusion Models.
diffusion-models quantization ddim pytorch stable-diffusion model-compression post-training-quantization
Language:Python 300
megvii-research / FQ-ViT
[IJCAI 2022] FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer
vision-transformer quantization post-training-quantization pytorch imagenet
Language:Python 293
sayakpaul / Adventures-in-TensorFlow-Lite
This repository contains notebooks that show the usage of TensorFlow Lite for quantizing deep neural networks.
inference model-optimization model-quantization on-device-ml post-training-quantization pruning quantization-aware-training tensorflow-2 tensorflow-lite tf-hub tf-lite-model
Language:Jupyter Notebook 170
ModelTC / llmc
This is the official PyTorch implementation of "LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit"
deployment llm pruning quantization tool benchmark evaluation large-language-models awq falcon internlm internlm2 llama llama2 llama3 opt smoothquant omniquant post-training-quantization ptq
Language:Python 128
ModelTC / TFMQ-DM
[CVPR 2024 Highlight] This is the official PyTorch implementation of "TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models".
ddim diffusion-models ldm post-training-quantization stable-diffusion cvpr cvpr2024 quantization highlight
Language:Jupyter Notebook 48
hkproj / quantization-notes
Notes on quantization in neural networks
deep-learning neural-networks post-training-quantization pytorch quantization quantization-aware-training
Language:Jupyter Notebook 43
Sanjana7395 / static_quantization
Post-training static quantization using ResNet18 architecture
quantization post-training-quantization resnet-18 mnist-classification pytorch floatfunctional fbgemm float32-to-int8 reduce-inference-time reduce-memory-storage
Language:Jupyter Notebook 37
ModelTC / QLLM
[ICLR 2024] This is the official PyTorch implementation of "QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models"
llama llama2 llm post-training-quantization pytorch quantization transformers
Language:Python 29
zysxmu / FDDA
Pytorch implementation of our paper accepted by ECCV 2022-- Fine-grained Data Distribution Alignment for Post-Training Quantization
post-training-quantization acceleration compression
Language:Python 14
KwangHoonAn / Quantizations
dfq data-free-quantization quantization post-training-quantization
Language:Python 13
iszry / DI2N-PTQ4DM
Improved the performance of 8-bit PTQ4DM expecially on FID.
diffusion-model post-training-quantization
Language:Python 9
GongCheng1919 / bias-compensation
[CAAI AIR'24] Minimize Quantization Output Error with Bias Compensation
llm-compression post-training-quantization bias-compensation llm-quantization output-error-optimization
Language:Python 5
likholat / openvino_quantization
This sample shows how to convert TensorFlow model to OpenVINO IR model and how to quantize OpenVINO model.
tensorflow openvino quantization model-conversion model-optimizer model-acceleration post-training-quantization
Language:Python 5
Rumeysakeskin / ASR-Quantization
Post-training quantization on Nvidia Nemo ASR model
model-deployment nvidia-nemo post-training-quantization pytorch pytorch-lightning quantization speech-recognition
Language:Jupyter Notebook 5
ssi-research / eptq
Implementation of EPTQ - an Enhanced Post-Training Quantization algorithm for DNN compression
computer-vision hessian label-free neural-network post-training-quantization quantization
Language:Python 4
yester31 / Quantization_EX
quantization example for pqt & qat
int8 model-optimization post-training-quantization ptq pytorch-quantization qat quantization quantization-aware-training tensorrt
Language:Python 4
satya15july / quantization
Model Quantization with Pytorch, Tensorflow & Larq
quantization binarization quantization-aware-training binarymodel-with-larq post-training-quantization
Language:C++ 3
yester31 / TensorRT_ONNX
Generating tensorrt model using onnx
int8-inference int8-quantization onnx onnxruntime post-training-quantization ptq pytorch quantization tensorrt tensorrt-inference
Language:C++ 3
AndreiZoltan / ptq_resnet20
Low-bit (2/4/8/16) Post Training Quantization for ResNet20
computer-vision post-training-quantization pytorch resnet quantization resnet-18
Language:Python 2
generalMG / Medical-Dataset-Deep-Learning-Quantization-Data-Analysis
The repository discusses a research work published on MDPI Sensors and provides details about the project.
classification data-analysis data-visualization edge-device image-processing medical-image-processing point-of-care post-training-quantization
Language:Python 2
smpanaro / norm-tweaking
Post post-training-quantization (PTQ) method for improving LLMs. Unofficial implementation of https://arxiv.org/abs/2309.02784
llms post-training-quantization quantization ptq
Language:Python 2
yashmaniya0 / Quantization-of-Image-Classification-Models
Comprehensive study on the quantization of various CNN models, employing techniques such as Post-Training Quantization and Quantization Aware Training (QAT).
post-training-quantization quantization-aware-training
Language:Jupyter Notebook 2
OmidGhadami95 / EfficientNetV2_Quantization_CK
EfficientNetV2 (Efficientnetv2-b2) and quantization int8 and fp32 (QAT and PTQ) on CK+ dataset . fine-tuning, augmentation, solving imbalanced dataset, etc.
efficientnet post-training-quantization ptq qat quantization quantization-aware-training efficientnetv2 ckplus efficientnetv2-b2 emotion-recognition facial-emotion-recognition imbalanced-dataset real-time-emotion-classification real-time-emotion-detection scale-down googlecolab keras python tensorflow
Language:Jupyter Notebook 1
TanyaChutani / Quantization_Tensorflow
Quantization for Object Detection in Tensorflow 2.x
quantization quantization-aware-training object-detection tensorflow2 model-optimization post-training-quantization
Language:Python 1
amikom-gace-research-group / characterize-ptq-tensorrt
Research experiments archive for post-training quantization with TensorRT. Submitted and Accepted to IEEE EDGE 2024
post-training-quantization research tensorrt
Language:Python 0
andrea-zanette / HippoScan
A framework to train a ResUNet architecture, quantize, compile and execute it on an FPGA.
alveo fpga pynq segmentation ultra96v2 vitis-ai keras post-training-quantization tensorflow2 resunet
Language:Jupyter Notebook 0
raj2022 / quantization_prunings
Post-Training quantization perfomed on the model trained with CLIC dataset.
int8-quantization post-training-quantization
Language:Jupyter Notebook

post-training-quantization

666DZY666 / micronet

intel / neural-compressor

alibaba / TinyNeuralNetwork

SqueezeAILab / SqueezeLLM

megvii-research / Sparsebit

Xiuyu-Li / q-diffusion

megvii-research / FQ-ViT

sayakpaul / Adventures-in-TensorFlow-Lite

ModelTC / llmc

ModelTC / TFMQ-DM

hkproj / quantization-notes

Sanjana7395 / static_quantization

ModelTC / QLLM

zysxmu / FDDA

KwangHoonAn / Quantizations

iszry / DI2N-PTQ4DM

GongCheng1919 / bias-compensation

likholat / openvino_quantization

Rumeysakeskin / ASR-Quantization

ssi-research / eptq

yester31 / Quantization_EX

satya15july / quantization

yester31 / TensorRT_ONNX

AndreiZoltan / ptq_resnet20

generalMG / Medical-Dataset-Deep-Learning-Quantization-Data-Analysis

smpanaro / norm-tweaking

yashmaniya0 / Quantization-of-Image-Classification-Models

OmidGhadami95 / EfficientNetV2_Quantization_CK

TanyaChutani / Quantization_Tensorflow

amikom-gace-research-group / characterize-ptq-tensorrt

andrea-zanette / HippoScan

raj2022 / quantization_prunings