KenyonY / flaxkv

🗲 A high-performance on-disk dictionary.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

会增加返回某个前缀的迭代器么?键空间的支持

buptzyf opened this issue · comments

commented

看起来这个功能会很有用,后面会考虑支持。

看起来这个功能会很有用,后面会考虑支持。

是的,这个可以直接区分不同数据集,https://plyvel.readthedocs.io/en/latest/user.html#prefixed-databases

还有就是我看您修改了dataframe的序列化方式,少了兼容性?增加一个序列化方式的参数?

commented

对的,它可以弥补目前不方便建立多个子库的问题。

对于DataFrame的序列化,后面应该用一直沿用pickle,是因为发现pickle的性能会更好。之前的序列化方式应该会被直接弃用。对已经用v0.2.5版本保存的数据,可能需要重新保存了。(如果你已经存了请告知我,我会在这里给出一个转换脚本)
我会尽快发布一个新版本(v0.2.6)。

对的,它可以弥补目前不方便建立多个子库的问题。

对于DataFrame的序列化,后面应该用一直沿用pickle,是因为发现pickle的性能会更好。之前的序列化方式应该会被直接弃用。对已经用v0.2.5版本保存的数据,可能需要重新保存了。(如果你已经存了请告知我,我会在这里给出一个转换脚本) 我会尽快发布一个新版本(v0.2.5.1)。

存放较大dataframe时,确实推荐pickle

就是这么巧,哈哈哈,昨天我刚建立了不同子库来存放不同数据集,场景是GNN,要存放大量子图(100w,后期可能会到1000w+),大量csv文件会让操作系统崩溃(python启用多进程去处理,跑着跑着,系统就卡的异常缓慢),我又不太想放到一个csv,索引起来没有k-v库爽,因此都转成df放到库里了,现在利用这些数据转dataset中的.pt文件

关于脚本,如果您有空,可以发布一个到release,不知道有没有其他用户要迁移的,我自己的话,转成pt文件后,库暂时就不用了,我升级版本后,重新将csv序列化导入(还好csv文件没删,^_^)

commented

如果你不用转换的话,那脚本就先不写了 ¯\(ツ)

你上面提到建立了很多子库,子库是指用flaxkv建立的吗?
我开启了一个讨论 #32 ,我们后续可以在那里讨论。

This issue is stale because it has been open for 30 days with no activity.

This issue was closed because it has been inactive for 7 days since being marked as stale.

如果能支持dic[3:]或者dic["a":"z"]这样的range query,或者for in dict.iterator(start=,stop)就太好了
@KenyonY