ShamilNur / teta-ml-hackathon-2021

Case # 3. The ML model that separates the web server responses: Technical & Non-Technical hosts.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Хакатон МТС.Тета 2021

image

Команда: "Физики & Лирики"

Задача от центра Big Data

Кейс №3. Модель, разделяющая ответ веб-сервера

Необходимо построить модель машинного обучения, которая будет разделять хосты на технические (различные API: Яндекс метрика, реклама и т.д) и нетехнические (возвращают html странички).

Для решения задачи предоставляется подвыборка хостов без разметки (1_000_000 хостов). Необходимо собрать разметку самим.

Необходимо продемонстрировать работу модели, сделать сайт и/или андроид приложение, телеграмм-бота.

Какое бизнес применение может быть у такой модели? А у сайта?

Подумать и предложить, каким образом можно построить другую модель, с помощью которой можно было бы разделять все хосты по категориям (медицина, мода, бизнес и так далее). Как бы собиралась разметка?

Описание проекта

В файле "hack_3case.ipynb" содержится разметка, модель и парсинг данных.

В папке src/main в файлах "host_service.py" и "start.py" представлен 2 способ парсинга данных.

About

Case # 3. The ML model that separates the web server responses: Technical & Non-Technical hosts.


Languages

Language:Jupyter Notebook 96.2%Language:Python 3.8%