You: 用中文给这个项目写readme
GitHub Copilot:
这个项目是一个用于检测和统计日文文本中人名和片假名词的Python脚本。它使用了SudachiPy和THULAC两个自然语言处理库来进行文本分析和分词。此外,它还使用了彩云小译的API进行批量翻译。
(cx2333) 这是一个实验性的程序,并没有完全调好。通过结合NLP技术对GalTransl的json_jp文件进行人名提取。
- 读取指定文件夹中的JSON文件,并从中提取出人名和片假名词。
- 对提取出的人名和片假名词进行统计,并将统计结果保存为JSON文件。
- 对提取出的片假名词进行翻译,并将翻译结果保存为TXT文件。
- 运行
GalTransl_Name_Detector.py
脚本。 - 当提示输入JSON文件夹时,输入包含JSON文件的文件夹路径。
- 当提示输入阈值时,输入一个整数,这个整数将用于过滤出现次数少于该阈值的人名和片假名词。
- 等待脚本运行完成,结果将保存在以下文件中:
人名替换表.csv
:包含人名及其出现次数的CSV文件,只提取name字段,可用于给GalTransl的项目汉化name。结果-人名表-nlp.txt
:包含人名的TXT文件,NLP提取版本。结果-未知片假名表-nlp.txt
:包含翻译后的片假名词的TXT文件,使用NLP过滤已知片假名。计数-人名表-nlp.json
:包含人名及其出现次数的JSON文件。计数-片假名词表-nlp.json
:包含片假名词及其出现次数的JSON文件。
- SudachiPy
- THULAC
- 请确保输入的JSON文件的编码格式为UTF-8。
- 请确保已安装所有依赖库。
- 请确保已正确配置彩云小译的API。