JKHenry520 / Word-Embedding

Word2vec, Fasttext, Glove, Elmo, Bert, Flair pre-train Word Embedding

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Word-Embedding

Word2vec,Fasttext,Glove,Elmo,Bert and Flair pre-train Word Embedding

本仓库详细介绍如何利用Word2vec,Fasttext,Glove,Elmo,Bert and Flair如何去训练Word Embedding,对算法进行简要分析,给出了训练详细教程以及源码,教程中也给出相应的实验效果截图

1、环境

  • python>=3.5
  • tensorflow>=1.13

2、Word Embedding教程快速链接

3、实验数据简介

  • stop_words.txt: 停用词数据,用于数据预处理使用
  • wiki.zh.text.jian: wiki百科简体中文原始数据,wiki.zh.text.jian.fenci: wiki百科简体中文分词后数据,wiki百科数据主要在word2vec的skipgram模型中使用,数据量较大,已放百度网盘,地址: 链接, 密码: bvmw
  • toutiao_word_corpus.txt: 头条公开的新闻类分类数据,word2vec的gensim库实验、fasttext算法、glove算法中有使用

4、欢迎关注公众号

image

About

Word2vec, Fasttext, Glove, Elmo, Bert, Flair pre-train Word Embedding


Languages

Language:Python 100.0%