konatasick / GlossaryGenerator

英文原版书生词本生成器

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

主要目的是配合英语学习的透析阅读法使用,什么叫透析阅读法请自行搜索。

原理

程序很短,简单地说,就是:

  1. 读取一本小说的文本,干掉复数、时态这些东西,得到一本小说的词汇表;
  2. 和常用高频词库对比,去掉特别高频的词和不常用的词,生成你可能不认识的词表。

生词表生成后可导入欧陆词典一类的app,快速预习一下,可以大幅提升阅读原版书籍时的体验。

用Jupyter Notebook写的,解释和可调参数也都在里面,请点开generator.ipynb阅读使用。 运行前请先安装nltk和textract库。

支持格式

  • txt
  • pdf(文字版)
  • epub
  • doc/docx
  • csv
  • xls
  • xlsx

非txt文件花的时间会久一点,对其他格式的支持不一定好,我没有测试特别多文件。

增强版使用方法

觉得COCA词库或者Collins词库不符合自己需求的,或者里面认识词太多的,完全可以自行维护自己的生词库。

下载后自行删掉coca或collins词表里自己认识的词;或者自己另外找一个大词库表慢慢删,会让自己用起来越来越顺手!

补充了一个常用30000单词表,从高频到低频,可以删掉前面几千单词,后面一边用一边删。

About

英文原版书生词本生成器


Languages

Language:Jupyter Notebook 100.0%