红楼梦对话检索及说话人预测系统

使用说明 :

data 路径下存放有：
- 红楼梦前80回文本
- 红楼梦说话人标注数据
执行 python3 PrepareSquadData.py 获取说话人标注模型训练数据
执行 python3 ExtracConversation.py 获得红楼梦前80回对话及其上下文
执行 python3 label_model_training/run_squad.py 训练说话人标注模型，其中命令行参数参见 https://github.com/kamalkraj/BERT-SQuAD
执行 python3 label_model_training/BERT.py 对后楼梦前80回对话进行说话人标注，获得说话人预测的训练数据，并将训练数据划分为train.txt dev.txt test.txt 以及类别id映射字典：class.json（数据准备过程略去，请自行实现）
执行 python3 classify_model_training/run_train.py 获得说话人预测模型，请自行调整bery.py中Config类的各个参数（例如数据路径、模型存储路径）
最后在 classify_model_training/main.py中提供predict()方法用于预测说话人

展示截图：

About

红楼梦对话检索及说话人预测系统，基于红楼梦中的人物对话数据，预测给定话语的说话人

Language:Python 100.0%