xd2333 / GalTransl_Name_Detector

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

You: 用中文给这个项目写readme

GitHub Copilot:

项目名称:GalTransl_Name_Detector

项目描述:

这个项目是一个用于检测和统计日文文本中人名和片假名词的Python脚本。它使用了SudachiPy和THULAC两个自然语言处理库来进行文本分析和分词。此外,它还使用了彩云小译的API进行批量翻译。

(cx2333) 这是一个实验性的程序,并没有完全调好。通过结合NLP技术对GalTransl的json_jp文件进行人名提取。

主要功能:

  1. 读取指定文件夹中的JSON文件,并从中提取出人名和片假名词。
  2. 对提取出的人名和片假名词进行统计,并将统计结果保存为JSON文件。
  3. 对提取出的片假名词进行翻译,并将翻译结果保存为TXT文件。

使用方法:

  1. 运行GalTransl_Name_Detector.py脚本。
  2. 当提示输入JSON文件夹时,输入包含JSON文件的文件夹路径。
  3. 当提示输入阈值时,输入一个整数,这个整数将用于过滤出现次数少于该阈值的人名和片假名词。
  4. 等待脚本运行完成,结果将保存在以下文件中:
    • 人名替换表.csv:包含人名及其出现次数的CSV文件,只提取name字段,可用于给GalTransl的项目汉化name。
    • 结果-人名表-nlp.txt:包含人名的TXT文件,NLP提取版本。
    • 结果-未知片假名表-nlp.txt:包含翻译后的片假名词的TXT文件,使用NLP过滤已知片假名。
    • 计数-人名表-nlp.json:包含人名及其出现次数的JSON文件。
    • 计数-片假名词表-nlp.json:包含片假名词及其出现次数的JSON文件。

依赖库:

  • SudachiPy
  • THULAC

注意事项:

  • 请确保输入的JSON文件的编码格式为UTF-8。
  • 请确保已安装所有依赖库。
  • 请确保已正确配置彩云小译的API。

About


Languages

Language:Python 100.0%