wuyucheng2002 / Chinese-ancient-poetry-text-mining

古诗词爬虫和文本挖掘，含13个朝代的3万多条诗人数据、85万多条诗词数据，包括主题聚类、相关诗词推荐、藏头诗生成、诗词翻译等算法实现

chinese-poetry text-generation text-mining text-translation topic-clustering

古诗词爬虫和文本挖掘

爬虫和文本挖掘部分代码和数据开源

spider：爬虫和数据清洗代码，文件具体功能见第一行注释
data：数据整理结果，包括13个朝代的3万多条诗人数据，85万多首诗词数据，10万多条意象数据，近2万首含译注赏析的诗词数据，以及各个朝代不同省市的诗人信息
topic_model&LSA：主题聚类和推荐模型
GPT2-Chinese-old_gpt_2：GPT2实现藏头诗生成，含训练好的模型，可以输入格律、风格和藏头字，自动生成藏头诗，主要参考https://github.com/Morizeyao/GPT2-Chinese
bert2transformer_on_NMT：Bert实现翻译模型，含训练好的模型，输入文言文或者古诗词，会自动生成相应的白话文翻译，主要参考https://github.com/rjk-git/bert2transformer_on_NMT

由于github文件大小限制，仓库里主要包含代码文件，完整的代码、所有数据和训练好的模型文件存于百度网盘（链接: https://pan.baidu.com/s/1ExaqJ4O35MZP-EQrgoFCIA 提取码: hg5j）

机器学习部分参考代码和资料

万字长文！用文本挖掘深度剖析54万首诗歌
gensim中word2vec使用
最小熵原理（五）：“层层递进”之社区发现与聚类
甲言文言文处理库：https://github.com/jiaeyan/Jiayan
基于Bert的翻译模型：https://github.com/rjk-git/bert2transformer_on_NMT
基于GPT2的藏头诗生成模型：https://github.com/Morizeyao/GPT2-Chinese
文言文语料：https://github.com/NiuTrans/Classical-Modern

前端开发推荐学习网站

B站入门课程：https://www.bilibili.com/video/BV1QW411N762
网页模板网站（网页设计比较新颖）：https://cool.mfdemo.cn/cp/1/industry/41
网页模板网站（一般有源代码）：http://www.cssmoban.com
https://man.ilovefishc.com
https://www.runoob.com
https://www.php.cn
https://www.bootcss.com

About

古诗词爬虫和文本挖掘，含13个朝代的3万多条诗人数据、85万多条诗词数据，包括主题聚类、相关诗词推荐、藏头诗生成、诗词翻译等算法实现

chinese-poetry text-generation text-mining text-translation topic-clustering

Languages

Language:Jupyter Notebook 95.8%Language:Python 4.1%Language:Shell 0.0%