这是MNBVC项目的一部分,致力于实现从 arXiv 的研究论文中提取和处理 .tex
文件的自动化。
本项目从arxiv原始文件 (注,下载脚本来自arxivSpider_mnbvc) 中收集.tex
语料:
以.tex为对象的纯文本数据集 (本项目的目标)
数据流程:
source files -> .tex -> jsonline
- 专注于 .tex 文件的提取:从 arXiv 的研究论文的压缩包中提取 .tex 文件。
- 转换为 JSON Line 格式:将 .tex 文件转换为 .jsonl 格式。
- 错误处理和日志记录
克隆本仓库:
git clone https://github.com/yourusername/arxiv_tex_mnbvc.git
cd arxiv_tex_mnbvc
安装所需的依赖:
pip install tqdm chardet loguru
提前完善main.py
中的变量路径:
RAW_PATH = "arxiv-subset"
PARSE_PATH = "parse-files"
OUTPUT_TEX_PATH = "output-tex.jsonl"
注:假如不需要log,可以把带有logger的所有行直接注释掉。
运行主脚本开始提取和转换:
python main.py
具体来说,代码流程为:
- 本脚本会先扫描source文件,然后解压到
parse-files
文件夹。 - 扫描解压后的文件夹中的tex文件
- 抽取tex文件并且存储到jsonline中
- 删除解压后的文件夹,恢复source文件到原来的样子
本项目根据 Apache-2.0 许可证授权 - 详见 LICENSE 文件。