posavinova/info-retrieval-project

IR project

HOW TO USE:

Установить необходимые пакеты и положить корпус текстовых файлов в директорию clean_data.

pip install -r requirements.txt

Обучить модели fast-text и word2vec

python -m train_vectorizers

3.1 Запустить сервер с эндпоинтом для поиска и перейти в API в браузере, нажать Try in out, заполнить тело запроса (схема модели SearchQuery описана внизу страницы) и кликнуть на Execute

uvicorn main:app → http://127.0.0.1:8000/docs#/default/search_search_post

3.2 Запустить через CLI

Параметры:

query - обязательный позиционный аргумент, тело поискового запроса
search-type - способ индексации (freq, bm25, word2vec, fasttext, sbert)
top-n - ограничение на размер поисковой выдачи

python main.py "электронная цифровая подпись" --search-type "sbert" --top-n 5

Результат поиска - отсортированные по релевантности названия документов, соответствующих запросу, а также время в секундах, которое было затрачено на поиск.

posavinova / info-retrieval-project

IR project

HOW TO USE:

Параметры:

About

Languages