getorca / vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

This repository is not active

A high-throughput and memory-efficient inference and serving engine for LLMs

Apache License 2.0

Language:Python 76.4%Language:Cuda 20.7%Language:C++ 1.8%Language:Shell 0.5%Language:Dockerfile 0.2%Language:C 0.2%Language:Jinja 0.1%