A-Soul-Database / A-Soul-Database

A-Soul db A-Soul第三方直播数据

Home Page:https://Asdb.live/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

字幕预处理和校对

eileen-fan opened this issue · comments

您好!我正在做乃琳单播的全文字实录 (www.douban.com/group/topic/240496870/),同样基于剪映识别的字幕,记录了一些可以用于字幕预处理的替换词。目前对于乃琳的单播,绝大部分的名词都可以保证准确了。附在最后,希望能有一点帮助。
剪映得到的字幕粗读已经有比较高的准确度了。目前数据库的字幕搜索功能我试了一下效果已经很不错了。在搜索结果显示以及字幕显示上优化一下就能方便快速回顾录播内容了。
可以考虑开放一个途径让AU贡献替换词来不断增加准确度,甚至是贡献准确校对过后的字幕。

附:目前我用的替换词表,注意乃琳的英文名是Eileen
('a 瘦', 'A-SOUL') ('a 4', 'A-SOUL') ('a 色', 'A-SOUL')('a 搜', 'A-SOUL')('一搜', 'A-SOUL')(' ace ', 'A-SOUL')('ace ', 'A-SOUL')(' a 祝', 'A-SOUL')(' a 送', 'A-SOUL')(' a 手', 'A-SOUL')(' aco ', 'A-SOUL')(' ato ', 'A-SOUL')('ac', 'A-SOUL')('奶林', '乃琳')('奶琳', '乃琳')('兰琳', '乃琳')('南陵', '乃琳')('乃龄', '乃琳')('乃玲', '乃琳')('奶龄', '乃琳')('奶灵', '乃琳')('懒龄', '乃琳')('兰陵', '乃琳')('懒玲', '乃琳')('那您', '乃琳')('乃林', '乃琳')('那玲', '乃琳')('乃林', '乃琳')('南宁', '乃琳')('奶玲', '乃琳')('奶淋', '乃琳')('奶淋', '乃琳')('艾琳', '乃琳')('奶铃', '乃琳')('奶菱', '乃琳')('耐玲', '乃琳')('乃令', '乃琳')('奶聆', '乃琳')('南林', '乃宝')('男宝', '乃宝')('楠宝', '乃宝')('来宝', '乃宝')('奶宝', '乃宝')('男老师', '乃老师')('奶老师', '乃老师')('奶麒麟', '奶淇琳')('乃麒麟', '奶淇琳')('来麒麟', '奶淇琳')('拿麒麟', '奶淇琳')('男麒麟', '奶淇琳')('蓝精灵', '奶淇琳')
('奶精灵', '奶淇琳')('奈其林', '奶淇琳')('奶其林', '奶淇琳')('奶情侣', '奶淇琳')('奶清零', '奶淇琳')('婉婉', '晚晚')('碗碗', '晚晚')('往晚', '晚晚')('相婉', '向晚')('像碗', '向晚')('婉之岛', '晚指导')('冉冉', '然然')('家然', '嘉然')('佳然', '嘉然')('佳人', '嘉然')('佳冉', '嘉然')('家乐', '珈乐')('佳乐', '珈乐')('加勒', '珈乐')('垃圾', '拉姐')('啦姐', '拉姐')('辣姐', '拉姐')('腊姐', '拉姐')('来姐', '拉姐')('娜姐', '拉姐')('北极星', '贝极星')('夹心糖', '嘉心糖')('皇家骑士', '皇珈骑士')('之江', '枝江')('浙江', '枝江')('上剑', '上舰')('上见', '上舰')('上传', '上船')('类目', '泪目')('来搞', '来稿')('戏说', '细说')('树笛', '竖笛')('树顶', '竖笛')('树迪', '竖笛')('树敌', '竖笛')('门将', '门酱')('同仁', '同人')('铜仁', '同人')('红音腔', '红缨枪')('卡祖迪', '卡祖笛')('小小梦演', '小小梦魇')('宫巨人', '工具人')('恭敬人', '工具人')('郭敬荣', '工具人')('工地人', '工具人')('攻击人', '工具人')('公主人', '工具人')('滚卷人', '工具人')('东巨人', '工具人')('宫居然', '工具人')('宫既然', '工具人')('龚巨人', '工具人')

commented

感谢,替换表位置是/main/tools/process/srt/srtChange.json 采用json格式,可以写一个python脚本增加进来吗?不行的话我写,你提供的tuple格式可以再python下轻松转换捏

没怎么用过github,不太懂操作逻辑,试着提议修改了一下那个文件。

commented

感谢