- Установить необходимые пакеты и положить корпус текстовых файлов в директорию clean_data.
pip install -r requirements.txt
- Обучить модели fast-text и word2vec
python -m train_vectorizers
3.1 Запустить сервер с эндпоинтом для поиска и перейти в API в браузере, нажать Try in out
, заполнить тело запроса (схема модели SearchQuery описана внизу страницы) и кликнуть на Execute
uvicorn main:app
→ http://127.0.0.1:8000/docs#/default/search_search_post
3.2 Запустить через CLI
- query - обязательный позиционный аргумент, тело поискового запроса
- search-type - способ индексации (freq, bm25, word2vec, fasttext, sbert)
- top-n - ограничение на размер поисковой выдачи
python main.py "электронная цифровая подпись" --search-type "sbert" --top-n 5
- Результат поиска - отсортированные по релевантности названия документов, соответствующих запросу, а также время в секундах, которое было затрачено на поиск.