会增加返回某个前缀的迭代器么？键空间的支持

Question

会增加返回某个前缀的迭代器么？键空间的支持

buptzyf opened this issue 6 months ago · comments

buptzyf commented 6 months ago

参考：https://plyvel.readthedocs.io/en/latest/user.html#iterators

K.Y · Answer 1 · Wed Jan 17 2024 21:18:45 GMT+0800 (China Standard Time)

看起来这个功能会很有用，后面会考虑支持。

buptzyf · Answer 2 · Thu Jan 18 2024 11:02:15 GMT+0800 (China Standard Time)

看起来这个功能会很有用，后面会考虑支持。

是的，这个可以直接区分不同数据集，https://plyvel.readthedocs.io/en/latest/user.html#prefixed-databases

还有就是我看您修改了dataframe的序列化方式，少了兼容性？增加一个序列化方式的参数？

K.Y · Answer 3 · Thu Jan 18 2024 22:56:32 GMT+0800 (China Standard Time)

对的，它可以弥补目前不方便建立多个子库的问题。

对于DataFrame的序列化，后面应该用一直沿用pickle，是因为发现pickle的性能会更好。之前的序列化方式应该会被直接弃用。对已经用v0.2.5版本保存的数据，可能需要重新保存了。（如果你已经存了请告知我，我会在这里给出一个转换脚本）
我会尽快发布一个新版本（v0.2.6）。

buptzyf · Answer 4 · Fri Jan 19 2024 11:08:54 GMT+0800 (China Standard Time)

对的，它可以弥补目前不方便建立多个子库的问题。

对于DataFrame的序列化，后面应该用一直沿用pickle，是因为发现pickle的性能会更好。之前的序列化方式应该会被直接弃用。对已经用v0.2.5版本保存的数据，可能需要重新保存了。（如果你已经存了请告知我，我会在这里给出一个转换脚本）我会尽快发布一个新版本（v0.2.5.1）。

存放较大dataframe时，确实推荐pickle

就是这么巧，哈哈哈，昨天我刚建立了不同子库来存放不同数据集，场景是GNN，要存放大量子图（100w，后期可能会到1000w+），大量csv文件会让操作系统崩溃（python启用多进程去处理，跑着跑着，系统就卡的异常缓慢），我又不太想放到一个csv，索引起来没有k-v库爽，因此都转成df放到库里了，现在利用这些数据转dataset中的.pt文件

关于脚本，如果您有空，可以发布一个到release，不知道有没有其他用户要迁移的，我自己的话，转成pt文件后，库暂时就不用了，我升级版本后，重新将csv序列化导入（还好csv文件没删，^_^）

K.Y · Answer 5 · Fri Jan 19 2024 23:21:03 GMT+0800 (China Standard Time)

如果你不用转换的话，那脚本就先不写了 ¯\(ツ)/¯

你上面提到建立了很多子库，子库是指用flaxkv建立的吗？
我开启了一个讨论 #32 ，我们后续可以在那里讨论。

github-actions · Answer 6 · Wed Feb 21 2024 17:01:04 GMT+0800 (China Standard Time)

This issue is stale because it has been open for 30 days with no activity.

github-actions · Answer 7 · Thu Feb 29 2024 17:01:11 GMT+0800 (China Standard Time)

This issue was closed because it has been inactive for 7 days since being marked as stale.

aigc-anime · Answer 8 · Fri May 03 2024 23:57:10 GMT+0800 (China Standard Time)

如果能支持dic[3:]或者dic["a":"z"]这样的range query，或者for in dict.iterator(start=,stop)就太好了
@KenyonY