На вход подаются файлы config.json где указываются тексты по которым будет производится поиск по указанным в requests.json запросам. На выходе в качестве результата выдается answers.json, в котором по каждому из запросов список относительных релевантностей каждого из текстов.
- Скачать проект с github
- собрать проект
- создать папке с исполняемым файлом файл config.json и request.json. За основу можно взять файлы examples/config.json и examples/requests.json
- в config.json в поле "max_responses" необходимо указать максимальное количество ответов на один запрос.
- в config.json в поле files указать пути к файлам по которым будет осуществляться поиск. В качестве примера указаны пути:
- файл request состоит из списка запросов. Каждый состоит из не более 1 000 слов. Между слов пробелы.
При запуске программа показывает
Далее идет проверка путей файлов:
Caught exception: "resources/file002.txt" File is missing - означает что file002.txt" по указанному пути не найден
программа производит поиск по файлам и составляется файл answer.json в котором находится результат запроса
В консоль при этом выдается количество найденных результатов по каждому запросу. Это количество текстов в которых ненулевой индекс релевантности и это количество ограничено значением max_responses.
Пример результата можно найти в файле examples/answers.json
Идентификатор запроса формируется автоматически по порядку, в котором находятся запросы в поле requests файла requests.json. Например: "requests": [ "some words..", для данной строки id запроса будет равен “request001” "some words..", для данной строки id запроса будет равен “request002” "some words..", для данной строки id запроса будет равен “request003” "some words..", для данной строки id запроса будет равен “request004” … ]
Если он принимает значение true, значит поданному запросу найден хотя бы один документ. Если результат имеет значение false, значит ни одного документа не найдено. Тогда других полей в ответе на этот запрос нет.
● relevance включается в файл answers.json, если на этот запрос удалось найти более одного документа.
Далее идут соответствия рейтинга ответа и названия id документа, в котором осуществлялся поиск:
Он формируется автоматически при индексации всех документов исходя из порядка, в котором документы расположены в поле files в файле config.json. Например, если в поле config.json поле files содержит:
Это число показывает, насколько документ подходит для заданного запроса. В ответе id документов располагаются в порядке уменьшения поискового рейтинга.