哪位大神可以指点下如何制作train.json文件？

Question

哪位大神可以指点下如何制作train.json文件？

cxhermagic opened this issue 2 years ago · comments

Xiaohui.Cui commented 2 years ago

感觉用["train.txt", "train.txt", "train.txt"]这种方式不行，其中train.txt里面是斗破苍穹的文本

homuraLan · Answer 1 · Sun Jan 08 2023 00:00:49 GMT+0800 (China Standard Time)

读取小说文件json一直报错，我还以为可以直接读取小说为json结果不行？

homuraLan · Answer 2 · Sun Jan 08 2023 00:03:14 GMT+0800 (China Standard Time)

'''
如果训练材料是全部堆在一起不分篇章的话用这个文件
'''
真是骗到我了

homuraLan · Answer 3 · Sun Jan 08 2023 00:44:43 GMT+0800 (China Standard Time)

我知道怎么搞了，代码有坑

Cyan-离 · Answer 4 · Thu Jan 12 2023 12:51:07 GMT+0800 (China Standard Time)

是不是json太长了读取失败？如果这样的话可以参考一下这个 #174 (comment)

Cyan-离 · Answer 5 · Thu Jan 12 2023 12:55:52 GMT+0800 (China Standard Time)

如果要训练一本书推荐用train_single.pyREADME中也有说明

cywjava · Answer 6 · Fri Feb 17 2023 15:51:06 GMT+0800 (China Standard Time)

这样的格式
["文章内容","文章内容2"，“文章内容3”]

cywjava · Answer 7 · Fri Feb 17 2023 15:51:48 GMT+0800 (China Standard Time)

我想知道的是，可不可以搞多个train.json, 训练多个后，模型文件生成在一个bin里。

Yang · Answer 8 · Sat Mar 25 2023 21:27:30 GMT+0800 (China Standard Time)

你可以自己修改代码，不过我写了个简单的小程序用来创建train.json

# -*- coding: utf-8 -*-
import json
import sys
import os

with open('train.json', 'a+', encoding='utf-8') as t:
    t.seek(0)
    try:
        content = json.load(t)
    except json.JSONDecodeError:
        json.dump([], t)
        content = []

    t.seek(0)

    try:
        sys.argv[1]
    except IndexError:
        for each in os.listdir():
            if each.endswith('.txt'):
                with open(each, 'r+', encoding='utf-8') as f:
                    print(f'loaded: {each}')
                    content.append(f.read())
    else:
        with open(sys.argv[1], 'r+', encoding='utf-8') as f:
            print(f'loaded: {sys.argv[1]}')
            content.append(f.read())

    t.truncate()
    json.dump(content, t, ensure_ascii=False)

    print(f'writed {len(content)} objects.')