不支持流式dataset
af-74413592 opened this issue · comments
af-74413592 commented
visualglm只有FewshotData,数据直接加载到内存中会爆掉,改成
large_dataset_streamed = load_dataset("json", data_files=path,split="train", streaming=True)
dataset = large_dataset_streamed.map(datapreprocess)
的形式后,发现也不支持流式dataset。
Qingsong Lv commented
支持流式,只需要在训练脚本里传入参数--iterable-dataset
af-74413592 commented
谢谢