kazgu / nlp-notebook

NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、摘要文本生成、句子相似度判断等。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

项目描述

NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、文本生成、句子相似度判断等。

依赖

python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2

目录

0. 新词发现算法

1. 词向量

2. 文本分类 (每个模型内部使用optuna进行调参)

数据集(data文件夹): 二分类舆情数据集,划分如下:

数据集 数据量
训练集 56700
验证集 7000
测试集 6300

3. 实体识别NER

4. 文本摘要生成

1). 生成式

2). 抽取式

5. 句子相似度判别

6. 多标签分类

该文件夹记录一些paper及其所对应的模型代码:

8. QA

该文件夹内记录机器学习/深度学习一些知识点的简单总结。

9. algo

该文件夹内记录leetcode最热门的100道算法题,部分解题思路搬运自leetcode题解。

About

NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、摘要文本生成、句子相似度判断等。

License:MIT License


Languages

Language:Python 100.0%