Koziev / paraphraser

Поэтический перефразировщик

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Поэтический перефразировщик

Генеративная модель перефразировки коротких текстов: реплик в диалогах, строк стихов. Она разработана и поддерживается для использования в проектах чатбота и генеративной поэзии.

Датасет

На huggingface.co выложена публичная версия датасета: inkoziev/paraphrases.

Вы можете использовать этот датасет для обучения своих моделей, про необходимости дополняя его другими открытыми русскоязычными данными по перефразировкам, например из датасета cointegrated/ru-paraphrase-NMT-Leipzig.

Обучение

Код обучения: train_paraphraser_with_gpt2doublehead.py. В нем используется класс transformers.GPT2DoubleHeadsModel с дополнительной классификационной головой. В обучащих данных есть примеры неправильных перефразировок (см. поле "distractors" в сэмплах), которые используются в данной схеме файнтюна. Кроме того, из обучения исключается исходная фраза-затравка, чтобы модель не переобучалась на этих данных.

Готовая модель

Натренированная модель на huggingface: inkoziev/paraphraser.

Код с примером вызова модели: run_paraphraser_with_gpt2doublehead.py.

Сопряженные проекты

Модель для оценки близости двух коротких текстов: inkoziev/sbert_synonymy

Репозиторий с кодом тренировки модели: paraphrase_reranker.

About

Поэтический перефразировщик

License:GNU General Public License v3.0


Languages

Language:Python 100.0%