Команда: "Физики & Лирики"
Кейс №3. Модель, разделяющая ответ веб-сервера
Необходимо построить модель машинного обучения, которая будет разделять хосты на технические (различные API: Яндекс метрика, реклама и т.д) и нетехнические (возвращают html странички).
Для решения задачи предоставляется подвыборка хостов без разметки (1_000_000 хостов). Необходимо собрать разметку самим.
Необходимо продемонстрировать работу модели, сделать сайт и/или андроид приложение, телеграмм-бота.
Какое бизнес применение может быть у такой модели? А у сайта?
Подумать и предложить, каким образом можно построить другую модель, с помощью которой можно было бы разделять все хосты по категориям (медицина, мода, бизнес и так далее). Как бы собиралась разметка?
В файле "hack_3case.ipynb" содержится разметка, модель и парсинг данных.
В папке src/main в файлах "host_service.py" и "start.py" представлен 2 способ парсинга данных.