В ходе сравнения на датасете 20newsgroups проводилась кластеризация с выделением ключевых слов. Также эмбеддинги, которые получили каждая из моделей, переводились в пространство сниженной размерности для интерпретации результатов кластеризации. По результатам тестов получилось, что AnaText выделила 17 кластеров, в то время как BERTopic выделил 173 кластера. Более подробно результаты рассмотрены в презентации.
During the comparison, clustering with keyword allocation was carried out on the 20newsgroups dataset. Also, the embeddings that each of the models received were transferred to a reduced-dimensional space to interpret the clustering results. According to the test results, it turned out that AnaText allocated 17 clusters, while BERTopic allocated 173 clusters. The results are discussed in more detail in the presentation.