mr8bit / boostCampMCH

Решение для хакатона Moscow City Hack. Конмада Lambda. Место - 5

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

boostCamp

Команда - Lambda

Задча - №5 Нетология

в папке notebooks содержать скрипты для работы с модельками и парсинга данными

Этот репозиторий содержит ML+backend составляющую решения.

А вот тут можете найти iOS приложение - https://github.com/godemodegame/boostCamp

В чем смысл? -42

Мы берем репозитории пользователя, скачиваемы их, потом при помощи модели CodeBERTa векторизуем кодес. И при помощи модельник NER вытаскиваем библиотеки которые использует пользователь.

После чего собираем курсы с Udemy и книги по программированию с Ozon. И допом собираем вакансии с hh.ru и Хабра. Чистим даные, и векторизируем при помощи Sentence-Transformer c quora-distilbert-multilingual векторизируем все вакансии и все курсы. И смотрим при помощи косинусной метрики какая книга больше всего подходит вакансии. Для тематического моделирования используем послеодовательность Sentence-Transformer + UMAP + HDBSCAN. И смотрим какая вакансия с кем пересекается После чего смотрим чем владеет пользователь и что есть в предложеном, вычоркиваем что знает пользователь, а что нет. И показываем, то что он не знает.

Инструкция по запуску

Обновим секретный код github что бы получить доступ к репозитриям

Запуск через Docker

docker build -t codeCump . && docker run -it codeCump

Ну а если , что то можно и руками

  • Создать виртуальное окружение
  virtualenv venv && soruce venv/bin/activate
  • Установить зависимости
  pip install -r requirements.txt
  • Запустить приложение
  uvicorn main:app --reload

About

Решение для хакатона Moscow City Hack. Конмада Lambda. Место - 5


Languages

Language:Jupyter Notebook 99.6%Language:Python 0.4%Language:Dockerfile 0.0%