Build Dataset Script Fails

Question

Build Dataset Script Fails

evannorstrand-mp opened this issue a year ago · comments

python3 Andromeda/build_dataset.py --seed 42 --seq_len 8192 --hf_account "" --tokenizer "EleutherAI/gpt-neox-20b" --dataset_name "EleutherAI/the_pile_deduplicated"

Traceback (most recent call last):
File "/home/ubuntu/Andromeda/Andromeda/build_dataset.py", line 70, in
built_dataset(args)
File "/home/ubuntu/Andromeda/Andromeda/build_dataset.py", line 17, in built_dataset
tokenizer = AutoTokenizer.from_pretrained(CFG.Tokenizer)
AttributeError: type object 'CFG' has no attribute 'Tokenizer'

evannorstrand-mp · Answer 1 · Thu May 25 2023 20:28:23 GMT+0800 (China Standard Time)

CFG.Tokenizer should be CFG.TOKENIZER