giftiaagi / wonderwiz

大模型驱动的儿童盲盒问答趣味应用

Home Page:https://aistudio.baidu.com/application/detail/32089

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

wonderwiz

脚本

scripts/parse_sections.py 可以将《十万》的 XHTML 解析成 Section 列表,每个 Section 是一个章节。

将《十万》的 epub 解压缩,会得到一个 OEBPS 目录,把该目录放到 data/ 下。

mkdir data && cd data/
unzip ../十万个为什么数据集-天文.epub
cd ..

执行以下脚本,即可得到结构化的章节列表。

export PYTHONPATH=$(pwd)
python scripts/parse_sections.py

现在是将解析后的数据打印到控制台,可以将其保存到文件或DB,供后续使用。

About

大模型驱动的儿童盲盒问答趣味应用

https://aistudio.baidu.com/application/detail/32089


Languages

Language:Python 100.0%