Go100M内存从sftp上下载800M大文件

328 阅读1分钟

 下载实现的精髓:从sftp或者文件服务器上下载大文件到本地,都是先把sftp或者文件服务器上的大文件复制一份到服务器,再从服务器上下载到本地。

环境信息:

微服务内存:100M,磁盘:1G

文件大小800M

原始方案:

直接从sftp上复制文件到服务器上,再在服务器上压缩,再从服务器上下载压缩后的文件。

问题:由于用的是字节流读取文件,一次读取文件过大,导致内存占用加大。10M的文件读取需要100M的内存。100M的文件下载就会导致OOM。

改进后的方案:

参考Java的流式读取,先在ftp上压缩。然后运用sftp的下载接口下载到服务器。再用echo.context.stream流下载到本地浏览器。

改进后的效果:

800M的文件也只用了25M内存

关键点分析:

stream流实际使用的是io.copy。核心是分块读取,每次只读4M的文件。 

func Copy(dst Writer, src Reader) (written int64, err error) {
	return copyBuffer(dst, src, nil)
}

copyBuffer代码中可以发现,buf==nil时,会申请一个4M的缓冲区,然后for循环从src中读取内容,每次读取完成后写入到dst。

func copyBuffer(dst Writer, src Reader, buf []byte) (written int64, err error) {
	// If the reader has a WriteTo method, use it to do the copy.
	// Avoids an allocation and a copy.
	if wt, ok := src.(WriterTo); ok {
		return wt.WriteTo(dst)
	}
	// Similarly, if the writer has a ReadFrom method, use it to do the copy.
	if rt, ok := dst.(ReaderFrom); ok {
		return rt.ReadFrom(src)
	}
	if buf == nil {
		size := 32 * 1024
		if l, ok := src.(*LimitedReader); ok && int64(size) > l.N {
			if l.N < 1 {
				size = 1
			} else {
				size = int(l.N)
			}
		}
		buf = make([]byte, size)
	}
	for {
		nr, er := src.Read(buf)
		if nr > 0 {
			nw, ew := dst.Write(buf[0:nr])
			if nw > 0 {
				written += int64(nw)
			}
			if ew != nil {
				err = ew
				break
			}
			if nr != nw {
				err = ErrShortWrite
				break
			}
		}
		if er != nil {
			if er != EOF {
				err = er
			}
			break
		}
	}
	return written, err
}