shivpalSW / Optimized-CPU-Implementation-of-Llama2

Optimized CPU Implementation of Llama2-LLM

faiss-vector-database flask huggingface-hub huggingface-transformers langchain llama2 llm loader python quantization

Optimized-CPU-Implementation-of-Llama2

Optimized CPU Implementation of Llama2

Implimented :-

"TheBloke/Llama-2-7B-Chat-GGML" 4-bit Model from Huggingface Hub Model Link

Simple UI on local

About

Optimized CPU Implementation of Llama2-LLM

faiss-vector-database flask huggingface-hub huggingface-transformers langchain llama2 llm loader python quantization

MIT License

Languages

Language:Python 70.7%Language:HTML 29.3%