luhmann-chat

luhmann-chat es una prueba de concepto de una aplicación que usa RAG (Retrieval Augmented Generation) para chatear con una base de conocimiento específica, a saber, la teoría de los sistemas del sociólogo alemán Niklas Luhmann.

Diseño

Esta aplicación cuenta con los siguientes componentes:

Un servicio de almacenamiento (S3, Azure Blob Storage, etc.) para almacenar los archivos que representan parte de la obra de Niklas Luhmann en distintos idiomas (inglés, español y alemán).
Una base de datos de vectores ó postgresql empleando la extensión pgvector.
Una plataforma proveedora de los servicios de LLM o modelos opensource.

Arquitectura de un RAG

Implementar un RAG requiere completar los siguientes 8 pasos básicos:

Ingerir los documentos.
Dividir los documentos en trozos que puedan ser procesados por el LLM (Large Language Model).
Convertir en tokens las cadenas de texto y contar los tokens para que calcen dentro del límite tolerado por la API del LLM.
Crear embeddings de esos documentos ya reducidos en tamaño.
Almacenar esos embeddings en una base de datos de vectores.
Tomar el input del usuario y crear un embedding del mismo.
Emplear algún algoritmo de similaridad para recuperar registros en la base de datos de vectores.
Pasarle los resultados al modelo del LLM como contexto para producir una respuesta.

¹

Uso

En desarrollo...

Desarrollo

En Codespaces

Este proyecto cuenta con un archivo devcontainer.json donde se definen las principales dependencias que el proyecto necesita para ejecutarse.

Basta sólo activar el entorno luhmann cuando se comience a trabajar y conectarse al REPL.

En Gitpod

Ejecutar el script create_env.sh para crear el entorno virtual. Luego activar el entorno (asegúrese de crear una nueva terminal):

conda activate luhmann

ó

source activate luhmann

Y finalmente conectarse al REPL.

TAREAS PENDIENTES

Troubleshooting

Si obtienes una excepción al cargar documentos del tipo: ImportError: libGL.so.1: cannot open shared object file: No such file or directory Debes instalar el siguiente paquete:

sudo apt install libgl1-mesa-glx

Licencia

Este desarrollo se inscribe dentro del proyecto de investigación Recursos computacionales para investigación en torno a la Teoría de Sistemas Sociales financiado por la Universidad de Flores (UFLO).

EPLv1.0 is just the default for projects generated by deps-new: you are not required to open source this project, nor are you required to use EPLv1.0! Feel free to remove or change the LICENSE file and remove or update this section of the README.md file!

Distributed under the Eclipse Public License version 1.0.

1: Esta imagen fue tomada del curso de DeepLearning.AI titulado Langchain Chat with your Data.

About

RAG application to chat with N. Luhmann's oeuvre

Eclipse Public License 1.0

Languages

Language:Clojure 99.6%Language:Shell 0.4%