【关于 NLP】那些你不知道的事

作者：杨夕

项目地址：https://github.com/km1994/nlp_paper_study

个人介绍：大佬们好，我叫杨夕，该项目主要是本人在研读顶会论文和复现经典论文过程中，所见、所思、所想、所闻，可能存在一些理解错误，希望大佬们多多指正。

介绍

论文工具篇

问题
- 作为一名 scholar，你是否和我一样，在刚入门 NLP 时，对于陌生领域有种无从下手，心存畏惧？
- 作为一名 scholar，你是否还在发愁如何找好的论文？
- 作为一名 scholar，你是否还在为自己的英文阅读能力跟不上很烦恼？
- 作为一名 scholar，你是否还在为看到一篇好paper，但是复现不出 code 而心累？
- 作为一名 scholar，你是否还在为有Good idea，Outstanding Experimental results，Beautiful Chinese manuscript，结果 Bad English manuscript, Poor Journal 而奔溃？
- 作为一名 scholar，你是否在为搞科研没人交流而自闭？
当你看到这一篇文档，你将不在为这些问题而烦恼，因为我们为你准备了一整套免费的从论文查找->论文翻译->论文理解->相关代码搜索->写英文稿->科研学术交流的路径。

会议收集篇

NLP 学习篇

理论学习篇

经典论文研读篇

那些你所不知道的事
- 【关于Transformer】那些的你不知道的事
- 【关于Bert】那些的你不知道的事

transformer 学习篇

transformer_study transformer 论文学习

预训练模型篇

细粒度情感分析论文研读

LCF: A Local Context Focus Mechanism for Aspect-Based Sentiment Classiﬁcation

主动学习论文研读

Proactive Learning for Named Entity Recognition（命名实体识别的主动学习）

对抗训练论文研读

FreeLB: Enhanced Adversarial Training for Language Understanding 加强语言理解的对抗性训练

实体关系联合抽取论文研读：

GCN 在 NLP 上的应用论文研读：

GCN 在 NLP 上的应用论文研读

命名实体识别论文研读：

关系抽取论文研读：

文本预处理

过采样

问答系统论文学习

文本摘要论文学习

文本匹配论文学习

机器翻译论文学习

Neural Machine Translation of Rare Words with Subword Units 论文学习

文本生成论文学习

【关于 SLCVAE 安装】那些你不知道的事

对话系统论文学习

rasa 学习

GCN_study学习篇

ML 小白入门篇

Java 实战篇

百度百科 ES 全文检索平台构建实战篇

项目目标
- 实现一个基于百度百科的 ES 全文检索平台
项目流程
- step 1: 编写网络爬虫爬取百度百科数据；
- step 2: 爬取数据之后，需要进行预处理操作，清洗掉文本中噪声数据；
- step 3: 将输入导入 ES ；
- step 4: 利用 python 编写后台，并对 ES 进行查询，返回接口数据；
- step 5: ES 数据前端展示；
- step 6: 百度百科知识图谱构建
- step 7：百度百科知识图谱检索与展示
数据介绍：
- 本项目通过编写爬虫爬取百度百科数据，总共爬取名称、链接、简介、中文名、外文名、国籍、出生地、出生日期、职业、类型、中文名称、代表作品、民族、主要成就、别名、毕业院校、导演、制片地区、主演、编剧、上映时间等400多个指标，共爬取数据 98000 条。
数据预处理模块

爬取的数据根据名称可以分为人物、地点、书籍、作品、综艺节目等。

类别	指标量	数量	筛选方式
人物	109	27319	国籍、职业、出生日期、出生地有一个不为空
地点	124	9361	地理位置、所属地区有一个不为空
书籍	45	3336	作者不为空
作品	45	8850	主演为空，中文名称不为空
综艺节目	108	5600	主演、导演都不为空

面试篇

Leetcode 篇

DeepLearning-500-questions

大数据实战篇

Spark 实战篇

1、wordCount
- 内容：运行原理，RDD设计，DAG，安装与使用
- 第1章 Spark的设计与运行原理（大概了解）
  - 1.1 Spark简介
  - 1.2 Spark运行架构
  - 1.3 RDD的设计与运行原理
  - 1.4 Spark的部署模式
- 第2章 Spark的安装与使用（主要内容）
  - 2.1 Spark的安装和使用（如果想在window上安装，参考https://blog.csdn.net/SummerHmh/article/details/89518567，之后可以用pyspark或者jupyter上进行学习）（地址有问题，可以使用这个https://www-eu.apache.org/dist/spark/spark-2.4.3/）
  - 2.2 第一个Spark应用程序：WordCount
2、RDDStudy
- 内容：RDD编程，熟悉算子，读写文件
- 第3章 Spark编程基础
  - 3.1 Spark入门：RDD编程
  - 3.2 Spark入门：键值对RDD
  - 3.3 Spark入门：共享变量（提升-分布式必备）
  - 3.4 数据读写
    - 3.4.1 Spark入门：文件数据读写
3、sparkSQLStudy
- 内容：DataFrame,SparkSQL
- 第4章
  - 4.1 Spark SQL简介
  - 4.2 DataFrame与RDD的区别
  - 4.3 DataFrame的创建
  - 4.4 从RDD转换得到DataFrame
4、Parquet_JDBC_IO_Study
5、MLlibStudy
- 内容：MLlib流设计，特征工程
- 第6章 Spark MLlib
  - 6.1 Spark MLlib简介
  - 6.2 机器学习工作流
    - 6.2.1 机器学习工作流(ML Pipelines)
    - 6.2.2 构建一个机器学习工作流
  - 6.3 特征抽取、转化和选择
    - 6.3.1 特征抽取：TF-IDF
    - 6.3.4 特征变换：标签和索引的转化
    - 6.3.5 特征选取：卡方选择器

资源篇

funNLP

CV 入门实战篇

About

研读顶会论文，复现论文相关代码

Languages

Language:Jupyter Notebook 100.0%

【关于 NLP】 那些你不知道的事

目录

介绍

会议收集篇

NLP 学习篇

理论学习篇

经典论文研读篇

transformer 学习篇

预训练模型篇

实体关系联合抽取论文研读：

GCN 在 NLP 上的应用 论文研读：

命名实体识别论文研读：

关系抽取论文研读：

视频学习篇

实战篇

Elastrsearch 学习篇

推荐系统 学习篇

竞赛篇

About

Languages

【关于 NLP】那些你不知道的事

GCN 在 NLP 上的应用论文研读：

推荐系统学习篇