关于输入图像维度的问题

Question

关于输入图像维度的问题

littlewater3 opened this issue a year ago · comments

看到有说明输入的图像需要转化为512512维度的图像。
我有大概数千张3232的带类别标签的图像，如何采用这些图像去重新训练stable diffusion model？
需要缩放为512512吗？还是说有办法拿这些3232的图像直接去训练。
如果去训练改模型，vae、unet、text encoder这些权重哪些需要改变？
我是刚入门的小白，望大佬指教

SkyCol · Answer 1 · Sat May 06 2023 23:34:20 GMT+0800 (China Standard Time)

Case there are always Rectangular shape picture，and also different on phones and computers . I added a width and a height parameter so that I can train as shapes of arbitrary proportions as I want.

SkyCol · Answer 2 · Sun May 07 2023 23:31:36 GMT+0800 (China Standard Time)

解决了这个问题