HuLei-cn / Word2vec_learning

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Word2vec_learning

数据集来源于自然语言处理领域顶会ACL、NAACL、EMNLP,收集了近三年的主会场论文的标题及摘要(数据以论文标题命名,摘要为文件内容),约5300篇。 所做的工作为:

  1. 利用gensim的word2vec对文本数据进行词的向量化;
  2. 使用TSNE对词向量进行降维并可视化;
  3. 统计词频,绘制词云图。

注:还可做主题词提取,优化任务效果。

更多任务细节见Word2vec词向量、可视化实战学习

数据集获取(当然也可自己爬取) 链接:https://pan.baidu.com/s/1gHrhJkb6Hb_mJ8N0Tip5Dg?pwd=60wf 提取码:60wf

About


Languages

Language:Jupyter Notebook 88.1%Language:Python 11.9%