mirror of
https://github.com/TencentARC/GFPGAN.git
synced 2026-02-15 13:54:33 +00:00
使用checkpoint继续训练的bug #23
Reference in New Issue
Block a user
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Originally created by @SimKarras on GitHub (Jul 11, 2021).
当我想要从断点继续训练,我修改了.yml文件以下内容:
我并没有修改pretrain_network_identity项。
但是随后报错:
一脸懵啊。。。
翻看log初始打印所有配置,此时pretrain_network_identity已经变了:
这。。。。
@xinntao commented on GitHub (Jul 12, 2021):
@JiaweiShiCV 这是basicsr的一个bug,你可以更新一下basicsr (v1.3.3.5):
具体问题原因是这个:
4a96712827@SimKarras commented on GitHub (Jul 12, 2021):
@xinntao pip install basicsr --upgrade 更新以后处理图片报错:
然后我尝试卸载basicsr, 加上环境变量重新安装
BASICSR_EXT=True pip install basicsr还是一样报错。。。
我暂时先换回1.3.3.4了
@SimKarras commented on GitHub (Jul 12, 2021):
新版本(1.3.3.5)下,stylegan的fused_act_ext编译有问题,导致训练开始不了。
@xinntao commented on GitHub (Jul 12, 2021):
这个版本相关的代码没有修改过。
你可以使用 git clone 来编译, 能够更好定位问题
如果有问题,可以把输出贴一下, 1.3.3.5应该是没有影响的才对=-=
@SimKarras commented on GitHub (Jul 12, 2021):
@xinntao haha 我刚在两台机器上都试过了,无论是infer推演还是train,1.3.3.5都报错
NameError: name 'fused_act_ext' is not defined, 。然后换1.3.3.4就和之前一样正常,1.3.3.4只有断点继续训练不行。关于1.3.3.5多卡训练报错(和推演一样):
@SimKarras commented on GitHub (Jul 12, 2021):
@xinntao 使用你上面的编译方式好像解决了。。。
@xinntao commented on GitHub (Jul 12, 2021):
ok,可能是上面没有卸载干净
或者是
BASICSR_EXT=True pip install basicsr编译有问题, 这个可以通过BASICSR_EXT=True pip -vvv install basicsr来查看输出信息@SimKarras commented on GitHub (Jul 12, 2021):
好的 thx!