BondarchukGleb42 / llama-summarization

Суммаризация текстов с описанием товаров и отзывов к ним с помощью зафайнтюненой LLama-7b

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

llama-summarization

Суммаризация текстов с описанием товаров и отзывов к ним с помощью зафайнтюненой LLama-7b

В этом ноутбуке реализован прототип суммаризатора текстовой информации о товаре на основе модели LLama-7b. Используется зафайнтюненная на задачу суммаризации модель.
Результаты работы модели продемонстрированы в .ipynb ноутбуке, код инференса вынесен в inference.py. Также сгенерирован небольшой синтетический датасет, на котором можно потестить модель.

Пример работы:

prompt = """
Найди плюсы и минусы товара по его текстовому описанию и отзывам.

### Товар:
текстовое описание: Электрический чайник "Quick Boil" - идеальное решение для тех, кто устал ждать заварки чая. Благодаря особому дизайну и использованию инновационных технологий этот чайник готовит чай моментально, сокращая время до минимума. Изготовлен из прочных материалов, обеспечивающих долговечность и надежность работы. Вмещает до 1,7 литра воды и имеет эргономичную рукоятку для удобной передачи. Наличие автоматического выключения и защита от перегрева обеспечивают безопасное использование. Электрический чайник "Quick Boil" - идеальное решение для быстрых и комфортных заварок чая.

Позитивные отзывы:
1. "Этот чайник настоящий спаситель! Позволяет мне быстро насладиться ароматным чаем в любое время дня. Очень удобно в использовании."
2. "Рекомендую этот чайник всем любителям чая! За считанные минуты получаешь горячую воду для заварки чая. Очень стильный и надежный товар."

Негативные отзывы:
1. "К сожалению, у меня этот чайник сломался через несколько месяцев использования. Заваривать чай больше не получается."
2. "Чайник часто оказывается горячим на поверхности после работы, что делает его использование несколько неудобным."


### Плюсы и минусы: - РЕЗУЛЬТАТЫ МОДЕЛИ
1. Благодаря особому дизайну и использованию инновационных технологий этот чайник готовит чай моментально, сокращая время до минимума.
2. Изготовлен из прочных материалов, обеспечивающих долговечность и надежность работы.
3. Вмещает до 1,7 литра воды и имеет эргономичную рукоятку для удобной передачи.
4. Наличие автоматического выключения и защита от перегрева обеспечивают безопасное использование.
5. Электрический чайник "Quick Boil" - идеальное решение для быстрых и комфортных заварок чая.

1. "К сожалению, у меня этот чайник сломался через несколько месяцев использования. Заваривать чай больше не получается."
2. Чайник часто оказывается горячим на поверхности после работы, что делает его использование несколько неудобным.
"""

Как можно улучшить результат?

Самый очевидный способ улучшить результат - дофайнтюнить ламу на русскоязычном датасете. Русскоязычный датасет можно также нагенерировать с помощью gpt api.

Но глобально, мне кажется, что задачу можно решить без использования больших LLM: плюсы и минусы в большинстве случаев будут явно указаны либо в тексте описания, либо в тексте отзывов. Поэтому можно обучить отдельные суммаризаторы для поиска плюсов и минусов в тексте товара. Как пример, rubart-cnn или обучить простой linear-attention с помощью метода DSSM.

About

Суммаризация текстов с описанием товаров и отзывов к ним с помощью зафайнтюненой LLama-7b


Languages

Language:Jupyter Notebook 87.8%Language:Python 12.2%