Vectorch

Vectorch's repositories

A high-performance inference system for large language models, designed for production environments.

Language:C++Apache-2.0299 14 60

A library for validating and benchmarking LLMs inference.

Apache-2.0300

optimized BERT transformer inference on NVIDIA GPU. https://arxiv.org/abs/2210.03052

Language:C++Apache-2.0000

An open source ChatGPT UI.

Language:TypeScriptMIT000

Transformer related optimization, including BERT, GPT

Language:C++Apache-2.0000

Fast and memory-efficient exact attention

Language:PythonBSD-3-Clause000

FlashInfer: Kernel Library for LLM Serving

Language:CudaApache-2.0000

💥 Fast State-of-the-Art Tokenizers optimized for Research and Production

Language:RustApache-2.0000

C++ Library Manager for Windows, Linux, and MacOS

Language:CMakeMIT000

Hackable and optimized Transformers building blocks, supporting a composable construction.

Language:PythonNOASSERTION000