BondarchukGleb42 / bert-saturation-metric

Кастомная метрика для оценки семантической насыщенности текста.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

bert-semantic-saturation

Кастомная метрика для оценки семантической насыщенности текста.

В рамках поставленной задачи было необходимо разработать метрику для оценки семантической насыщенности текста, в частности отзывов на книги. Для решения задачи был выбран и предобработан датасет. Также была придумана своя кастомная метрика, основанная на суммаризации и bert-score для оценки семантической схожести.

В качестве набора данных был выбран популярный датасет с обзором на книги от Амазона. Его можно скачать для запуска ноутбука по ссылке.

С выводом и обоснованием метрики можно познакомиться в ноутбуке.

Как можно улучшить?

В качестве улучшения можно попробовать дообучить суммаризатор на том датасете, для которого мы считаем метрику. Но это сильно снижает потенциал метода, т.к. требуется разметка. Ещё, возможно, можно прикрутить подсчёт косинусного расстояния между эмбеддингами суммаризированного и обычного текста.

About

Кастомная метрика для оценки семантической насыщенности текста.


Languages

Language:Jupyter Notebook 98.7%Language:Python 1.3%