零基础入门NLP-新闻文本分类

模型

TextCNN
TextRNN
HAN
BERT

├── bert                # BERT预训练  
├── config              # 模型配置    
├── data                # 训练数据   
├── docs                # 教程文档   
├── emb                 # 词向量以及BERT权重    
├── module              # 模块相关代码    
├── src                 # 训练相关代码   
├── preprocessing.py    # 预处理   
├── README.md           # 说明文档  
├── train.py            # 训练代码  
├── train.sh            # 训练脚本  
└── word2vec.py         # word2vec训练代码

依赖

fitlog
gensim
pandas
pytorch == 1.2.0
transformers == 2.9.0
tensorflow == 1.12

快速开始

将数据和词向量分别放在data和emb目录下,初始化fitlog fitlog init .
运行预处理代码python preprocessing.py
运行训练脚本bash train.sh

关于Datawhale

Datawhale是一个专注于数据科学与AI领域的开源组织，汇集了众多领域院校和知名企业的优秀学习者，聚合了一群有开源精神和探索精神的团队成员。Datawhale 以“for the learner，和学习者一起成长”为愿景，鼓励真实地展现自我、开放包容、互信互助、敢于试错和勇于担当。同时 Datawhale 用开源的理念去探索开源内容、开源学习和开源方案，赋能人才培养，助力人才成长，建立起人与人，人与知识，人与企业和人与未来的联结。

欢迎关注：

zhangfanTJU / Datawhale-Tianchi-NLP-Tutorial

零基础入门NLP-新闻文本分类

模型

目录

依赖

快速开始

关于Datawhale

About

Languages