Halfish / LyricsRetrieval

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

大作业项目是使用歌词搜索歌词

数据

  • 用 scrapy 爬取网易云音乐的歌词

采用的技术有:

  • word2vec+TFIDF,使用Word2Vec得到词语的表示,然后使用TFIDF作为词语的权重组合得到歌词文档的向量表示。详细的文档说明参见 word2vec+TFIDF.md
  • tf-idf + LSA/SVD/PCA
  • WMD,来自这篇论文From word Embeddings To Document Distances

相关的文件:

  • Chinese_Word2Vec:来自 http://www.cnblogs.com/Darwin2000/p/5786984.html。 使用中文维基百科训练出来的词向量。文件地址:$titan /data/lindayong/Chinese_Word2Vec

  • lyrics.json_processed:lyrics_json 包含 76333 首歌,经过处理后,剩下 17063 首中文歌。预处理代码地址:db_project/models/word2vec+tfidf/preprocessed_json.py 处理后的数据存放在: $titan /data/lindayong/lyrics.json_processed。

目录结构说明

  • /dataset 存放网易云音乐的数据。
  • /models 存放项目的模型,每个模型都有一个单独的子目录。

About


Languages

Language:Python 54.2%Language:Jupyter Notebook 32.3%Language:CSS 7.0%Language:JavaScript 3.5%Language:HTML 2.8%Language:Shell 0.2%