会增加返回某个前缀的迭代器么?键空间的支持
buptzyf opened this issue · comments
看起来这个功能会很有用,后面会考虑支持。
看起来这个功能会很有用,后面会考虑支持。
是的,这个可以直接区分不同数据集,https://plyvel.readthedocs.io/en/latest/user.html#prefixed-databases
还有就是我看您修改了dataframe的序列化方式,少了兼容性?增加一个序列化方式的参数?
对的,它可以弥补目前不方便建立多个子库的问题。
对于DataFrame的序列化,后面应该用一直沿用pickle,是因为发现pickle的性能会更好。之前的序列化方式应该会被直接弃用。对已经用v0.2.5版本保存的数据,可能需要重新保存了。(如果你已经存了请告知我,我会在这里给出一个转换脚本)
我会尽快发布一个新版本(v0.2.6)。
对的,它可以弥补目前不方便建立多个子库的问题。
对于DataFrame的序列化,后面应该用一直沿用pickle,是因为发现pickle的性能会更好。之前的序列化方式应该会被直接弃用。对已经用v0.2.5版本保存的数据,可能需要重新保存了。(如果你已经存了请告知我,我会在这里给出一个转换脚本) 我会尽快发布一个新版本(v0.2.5.1)。
存放较大dataframe时,确实推荐pickle
就是这么巧,哈哈哈,昨天我刚建立了不同子库来存放不同数据集,场景是GNN,要存放大量子图(100w,后期可能会到1000w+),大量csv文件会让操作系统崩溃(python启用多进程去处理,跑着跑着,系统就卡的异常缓慢),我又不太想放到一个csv,索引起来没有k-v库爽,因此都转成df放到库里了,现在利用这些数据转dataset中的.pt文件
关于脚本,如果您有空,可以发布一个到release,不知道有没有其他用户要迁移的,我自己的话,转成pt文件后,库暂时就不用了,我升级版本后,重新将csv序列化导入(还好csv文件没删,^_^)
This issue is stale because it has been open for 30 days with no activity.
This issue was closed because it has been inactive for 7 days since being marked as stale.
如果能支持dic[3:]或者dic["a":"z"]这样的range query,或者for in dict.iterator(start=,stop)就太好了
@KenyonY