如果你要下载的数据集有很大,有几百个G,那么使用snapshot_download()下载可能会出现到后面下载速度变成几十KB/s和中断的问题,
中断的报错信息:
httpx.RemoteProtocolError: peer closed connection without sending complete message body (received 84897210 bytes, expected 144358781)
即使恢复下载,同一个token每次可以下载的数据量会下降。
解决办法:从huggingface申请一个新的Access Tokens, 每次中断就换一个新的token。即使还是会中断,但是一次性可以下载的数据量可以维持在50G以上。