BERT-CRF-NER

##参考Github地址

###################################################################

##模型结构BERT+CRF Decoder

代码文件bert_base/train/models.py line101: 设置参数crf_only=True，控制模型只使用CRF进行解码(如果设置crf_only=False，模型将使用BiLSTM-CRF作为Decoder)

模型训练

模型&训练参数需要在代码文件bert_base/train/train_helper.py手动修改
如果在上诉代码文件中设置crf_only=True，则train_helper.py中关于BiLSTM的参数都不会被用到
调整好参数以后，直接在命令行cd到BERT-BiLSTM-CRF-NER/下运行以下指令(由于代码中写的是相对路径，因此必须在BERT-BiLSTM-CRF-NER/目录下运行)
```
python run.py
```
(注: 由于借不到GPU，所以训练在本机运行训练2500 step后我就停止了训练。耗时24h)

语料情况(数据集所含句子数):

训练集	开发集	测试集
20,846	2,318	4,636

语料示例:

海 O
钓 O
比 O
赛 O
地 O
点 O
在 O
厦 B-LOC
门 I-LOC
与 O
金 B-LOC
门 I-LOC
之 O
间 O
的 O
海 O
域 O
。 O

所有参数都是用default值(除了训练batch_size下降为32)

python terminal_predict.py

##批量预测

原文档标注后转BIO格式文档的函数放在Label_to_BIO/label_text_BIO.py文件里，在学校实验室，标注文档格式如label.txt所示。有可能跟贵公司的标注文件格式不同，如果有其他要求，可以随时联系我。

Language:Python 96.8%Language:Perl 3.2%Language:Shell 0.0%