xd2333 / GalTransl_Name_Detector

You: 用中文给这个项目写readme

GitHub Copilot:

项目名称：GalTransl_Name_Detector

项目描述：

这个项目是一个用于检测和统计日文文本中人名和片假名词的Python脚本。它使用了SudachiPy和THULAC两个自然语言处理库来进行文本分析和分词。此外，它还使用了彩云小译的API进行批量翻译。

(cx2333) 这是一个实验性的程序，并没有完全调好。通过结合NLP技术对GalTransl的json_jp文件进行人名提取。

主要功能：

读取指定文件夹中的JSON文件，并从中提取出人名和片假名词。
对提取出的人名和片假名词进行统计，并将统计结果保存为JSON文件。
对提取出的片假名词进行翻译，并将翻译结果保存为TXT文件。

使用方法：

运行GalTransl_Name_Detector.py脚本。
当提示输入JSON文件夹时，输入包含JSON文件的文件夹路径。
当提示输入阈值时，输入一个整数，这个整数将用于过滤出现次数少于该阈值的人名和片假名词。
等待脚本运行完成，结果将保存在以下文件中：
- 人名替换表.csv：包含人名及其出现次数的CSV文件，只提取name字段，可用于给GalTransl的项目汉化name。
- 结果-人名表-nlp.txt：包含人名的TXT文件，NLP提取版本。
- 结果-未知片假名表-nlp.txt：包含翻译后的片假名词的TXT文件，使用NLP过滤已知片假名。
- 计数-人名表-nlp.json：包含人名及其出现次数的JSON文件。
- 计数-片假名词表-nlp.json：包含片假名词及其出现次数的JSON文件。

依赖库：

SudachiPy
THULAC

注意事项：

请确保输入的JSON文件的编码格式为UTF-8。
请确保已安装所有依赖库。
请确保已正确配置彩云小译的API。

About

Languages

Language:Python 100.0%