从huggingface下载几百G的大数据集速度变慢、中断的解决办法

0 阅读1分钟

如果你要下载的数据集有很大,有几百个G,那么使用snapshot_download()下载可能会出现到后面下载速度变成几十KB/s和中断的问题, 中断的报错信息: httpx.RemoteProtocolError: peer closed connection without sending complete message body (received 84897210 bytes, expected 144358781)

即使恢复下载,同一个token每次可以下载的数据量会下降。

解决办法:从huggingface申请一个新的Access Tokens, 每次中断就换一个新的token。即使还是会中断,但是一次性可以下载的数据量可以维持在50G以上。