TurboWay / spiderman

基于 scrapy-redis 的通用分布式爬虫框架

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

考虑过HDF5格式存储吗

1MLightyears opened this issue · comments

可以比csv格式保存更多的信息,存取的速度也比csv快

commented

可以比csv格式保存更多的信息,存取的速度也比csv快

hdf5 多用于机器学习,更适合存一些经过预处理后的纯数字的数据集,不太适合爬虫。