arxiv_tex_mnbvc

这是MNBVC项目的一部分，致力于实现从 arXiv 的研究论文中提取和处理 .tex 文件的自动化。

本项目从arxiv原始文件 (注，下载脚本来自arxivSpider_mnbvc) 中收集.tex语料:

以.tex为对象的纯文本数据集 (本项目的目标)

数据流程:

source files -> .tex -> jsonline

特点

克隆本仓库：

git clone https://github.com/yourusername/arxiv_tex_mnbvc.git
cd arxiv_tex_mnbvc

安装所需的依赖：

pip install tqdm chardet loguru

提前完善main.py中的变量路径：

RAW_PATH = "arxiv-subset"
PARSE_PATH = "parse-files"
OUTPUT_TEX_PATH = "output-tex.jsonl"

注：假如不需要log，可以把带有logger的所有行直接注释掉。

运行主脚本开始提取和转换：

python main.py

具体来说，代码流程为：

本项目根据 Apache-2.0 许可证授权 - 详见 LICENSE 文件。