训练问题 #41

Closed
opened 2026-01-29 21:39:10 +00:00 by claunia · 2 comments
Owner

Originally created by @ZZFanya-DWR on GitHub (Aug 6, 2021).

作者,您好,我想问下,为什么我在本地训练都是正常的,然后在集群训练loss总是NAN,我尝试从新建环境,最终训练,始终保持本地和集群环境一直,可是最终还是本地正常,集群异常,请问怎么回事,谢谢

Originally created by @ZZFanya-DWR on GitHub (Aug 6, 2021). 作者,您好,我想问下,为什么我在本地训练都是正常的,然后在集群训练loss总是NAN,我尝试从新建环境,最终训练,始终保持本地和集群环境一直,可是最终还是本地正常,集群异常,请问怎么回事,谢谢
Author
Owner

@xinntao commented on GitHub (Aug 6, 2021):

这个我也不清楚了, 你需要自己debug一下了。 我没有遇到过这个情况~

@xinntao commented on GitHub (Aug 6, 2021): 这个我也不清楚了, 你需要自己debug一下了。 我没有遇到过这个情况~
Author
Owner

@zhoumenghan commented on GitHub (Mar 15, 2022):

作者,您好,我想问下,为什么我在本地训练都是正常的,然后在集群训练loss总是NAN,我尝试从新建环境,最终训练,始终保持本地和集群环境一直,可是最终还是本地正常,集群异常,请问怎么回事,谢谢

请问您后来是怎么解决这个问题的,我也遇到了这个情况。

@zhoumenghan commented on GitHub (Mar 15, 2022): > 作者,您好,我想问下,为什么我在本地训练都是正常的,然后在集群训练loss总是NAN,我尝试从新建环境,最终训练,始终保持本地和集群环境一直,可是最终还是本地正常,集群异常,请问怎么回事,谢谢 请问您后来是怎么解决这个问题的,我也遇到了这个情况。
Sign in to join this conversation.
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: TencentARC/GFPGAN#41