RomiconEZ / CPS24_Comparison_AnaText_BERTopic

Comparison of AnaText and BERTopic libraries

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

(RU) Сравнение библиотек AnaText и BERTopic

В ходе сравнения на датасете 20newsgroups проводилась кластеризация с выделением ключевых слов. Также эмбеддинги, которые получили каждая из моделей, переводились в пространство сниженной размерности для интерпретации результатов кластеризации. По результатам тестов получилось, что AnaText выделила 17 кластеров, в то время как BERTopic выделил 173 кластера. Более подробно результаты рассмотрены в презентации.

(EN) Comparison of AnaText and BERTopic libraries

During the comparison, clustering with keyword allocation was carried out on the 20newsgroups dataset. Also, the embeddings that each of the models received were transferred to a reduced-dimensional space to interpret the clustering results. According to the test results, it turned out that AnaText allocated 17 clusters, while BERTopic allocated 173 clusters. The results are discussed in more detail in the presentation.

About

Comparison of AnaText and BERTopic libraries


Languages

Language:Jupyter Notebook 100.0%