GuocaiL / nlp_corpus

本人项目进行中搜集的数据集,包含原始数据和经过处理后的数据,项目持续更新。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

nlp_corpus

1 中文实体识别

  • open_ner_data为网上开放的ner数据集,已将不同的数据格式转化为统一的数据格式,格式转换脚本为data_transfer.py

1.1 boson数据集

1.2 clue细粒度实体识别数据集

1.3 微软实体识别数据集

1.4 人民网实体识别数据集(98年)

1.5 中药说明书实体识别数据集(“万创杯”中医药天池大数据竞赛)

1.6 视频_音乐_图书数据集

1.7 微博数据集

About

本人项目进行中搜集的数据集,包含原始数据和经过处理后的数据,项目持续更新。


Languages

Language:Python 100.0%