posavinova / info-retrieval-project

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

IR project

HOW TO USE:

  1. Установить необходимые пакеты и положить корпус текстовых файлов в директорию clean_data.

pip install -r requirements.txt

  1. Обучить модели fast-text и word2vec

python -m train_vectorizers

3.1 Запустить сервер с эндпоинтом для поиска и перейти в API в браузере, нажать Try in out, заполнить тело запроса (схема модели SearchQuery описана внизу страницы) и кликнуть на Execute

uvicorn main:apphttp://127.0.0.1:8000/docs#/default/search_search_post

3.2 Запустить через CLI

Параметры:

  • query - обязательный позиционный аргумент, тело поискового запроса
  • search-type - способ индексации (freq, bm25, word2vec, fasttext, sbert)
  • top-n - ограничение на размер поисковой выдачи

python main.py "электронная цифровая подпись" --search-type "sbert" --top-n 5

  1. Результат поиска - отсортированные по релевантности названия документов, соответствующих запросу, а также время в секундах, которое было затрачено на поиск.

About


Languages

Language:Python 100.0%