创建数据的问题咨询
mjwSilence opened this issue · comments
请问创建数据那一项是什么意思?创建一个json文件,把文件路径/文件名 按K/V的方式手动写进去吗?
生成类似下面的格式写数据列表。如果是使用项目指定的数据,执行create_data.py
就能生成,自定义数据集,根据自己的数据格式,生成下面这种数据列表
dataset/zhvoice/zhmagicdata/5_895/5_895_20170614203758.wav 3238
dataset/zhvoice/zhmagicdata/5_895/5_895_20170614214007.wav 3238
dataset/zhvoice/zhmagicdata/5_941/5_941_20170613151344.wav 3239
dataset/zhvoice/zhmagicdata/5_941/5_941_20170614221329.wav 3239
dataset/zhvoice/zhmagicdata/5_941/5_941_20170616153308.wav 3239
dataset/zhvoice/zhmagicdata/5_968/5_968_20170614162657.wav 3240
dataset/zhvoice/zhmagicdata/5_968/5_968_20170622194003.wav 3240
dataset/zhvoice/zhmagicdata/5_968/5_968_20170707200554.wav 3240
dataset/zhvoice/zhmagicdata/5_970/5_970_20170616000122.wav 3241
我理解下,就是说如果我从你给的中文语料数据集下载数据,实际上是不需要执行create_data.py的吗?只需要把数据放到正确的位置即可?只有当我用自己的数据时,才需要执行这个py文件,这时候这个文件会帮我生成一个类似K/V的数据列表,这样吗?
要执行的。下载数据之后,解压全部压缩文件,然后执行create_data.py。因为下载的数据没有这个列表
了解,多谢,我试下看看
估计是内存爆了吧?
为啥第一行print都没打印?
我也奇怪,内存我分配到10个G了,而且内存爆了应该会有异常,我这个是很正常的就到Process finished
看来还是有可能是我的环境问题。
给他16G试试,我的就是16G
不过我的是windows
我试试
这是制作数据,把mp3转成wav,是比较消耗时间的。
OK,所以我到时候看下各个文件夹下面的数据是不是变成.wav就可以判断是不是执行成功了吧?
OK,我试过了,可以接上之前的进度,厉害了
没有看到最后提示的日志,不知道是不是内存不足
报错原因:Process finished with exit code 130 (interrupted by signal 2: SIGINT)
我查过了,确实是内存不足
加到16G我再试试
哦哦,好的
3Q
hello,看日志我应该是执行完了,这样正常吗?
有一些找不到文件的error,以及一些‘非静音部分长度不能低于1.3秒的提示’
正常的
OK,3Q
以及,infodata.json里面没有.wav文件路径;test_list.txt文件的数据到2221之后就没有了,和你的工程里3241有点差距,这样算有异常吗?
这个不正常。你重新生成列表看下
重新生成?是指删除现在的infodata里面的内容,然后重新执行createdata.py吗?
或者我手动把这个文件的.mp3全部替换成.wav?我看目录下面的mp3文件确实已经转成wav了
只有sample这个文件夹下面的数据还是mp3格式
执行这个
sample下不会管的
执行前需要先清空infodata.json的内容吗?现在300+m,很可能是不能编辑了
不用,那个是编辑打开的问题,代码会全部读取的。
你没解压?
解压出错了,是这个问题?我看看为什么解压出错
这个是分包压缩的,解压zip会自动全部解压的。
了解
上面那些红色的是提示加载数据集,这是正常的。你的错误是内存不足,加载数据太多了,这里设置小一些就好。
建议使用Pytorch版本或者PaddlePaddle版本吧。
是的,Tensorflow版本我很久没更新了。
OK,我试试
数据是通用的
了解
对了,一定要用3.7吗?
因为我用的是mac M1芯片,所以现在搭环境都是用的conda,conda现在好像只能装3.8以上版本的python
不一定
了解,我试试3.8
首先输出模型结构是后面加上的,文档没有更新。
深度学习模型很依赖GPU,用CPU训练,不知道要训练到猴年马月
但是我新的日志还在刷新,这地方的数据已经从一条增加到三条了,看上去是在做什么事情
这是训练输出的日志
了解,这块我不是很熟悉,学到了
对了,你之前用gpu训练大概需要花多久时间?
14小时
乖乖,那我这个真的要三百天才能训练完
不完全正确,后面的才合理
依你的经验,我应该换个什么服务器比较好?ubuntu或者linux?
Ubuntu就是Linux的一种,建议用Ubuntu,最重要的是要GPU
了解,我找找资源
新问题在对应项目里面提issue,这个我先关了。