Java使用POI进行大数据绕导入导出(批量)

643 阅读5分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第28天,点击查看活动详情

大数据绕导入导出(批量)

真实开发中,大多数就是大数据批量导入或者导出excel

大文件写HSSF

缺点:最多只能处理65536行,否则会报内存溢出异常
优点:过程中写入缓存,不操作磁盘,最后一次性写入磁盘,速度快

大文件写XSSF

缺点:写数据时速度非常慢,非常消耗内存,也会发生内存溢出,比如100万条
优点:可以写较大的数据量,比如20万条
03版本HSSF循环导入65536行数据(03版本最大行就是65536)

03版本HSSF循环插入65536条



package com.wyh.Test;



import org.apache.poi.hssf.usermodel.HSSFWorkbook;

import org.apache.poi.ss.usermodel.Cell;

import org.apache.poi.ss.usermodel.Row;

import org.apache.poi.ss.usermodel.Sheet;

import org.apache.poi.ss.usermodel.Workbook;

import org.junit.Test;



import java.io.FileOutputStream;



 /**

 *  @program:  JavaExecl

 *  @description:  大数据量写03版本

 *  @author:  魏一鹤

 *  @createDate:  2021-12-14 23:31

 **/



public class BigDateExcelWrite03 {

    //全局路径,供我们操作使用方便

  static String path = "D:\Tools\JavaWorkSpace\JavaExecl\" ;



    @Test

    public void BigDateExcelWrite03() throws Exception {

        //开始时间 用于计算时间差

  long beginTime = System.currentTimeMillis();

        //创建工作簿  03版本使用HSSF

 Workbook workbook = new HSSFWorkbook();

        //创建工作表 这里就不给它命令了 按照默认的来

 Sheet sheet = workbook.createSheet();

        //写入数据 循环插入65536行数据,03版的HSSF最多只能插入65536行

  for (int rowNum = 0; rowNum < 65536; rowNum++) {

            //循环创建行

 Row row = sheet.createRow(rowNum);

            for(int cellNum=0;cellNum<10;cellNum++){

                //循环插入列

 Cell cell = row.createCell(cellNum);

                //循环设置值

 cell.setCellValue(cellNum);

            }

        }

        System.out.println( "生成excel表完毕" );

        //03版本的后缀是xls

 //开启文件流

 FileOutputStream fileOutputStream = new FileOutputStream(path + "BigDateExcelWrite03.xlsx" );

        //开始写excel

 workbook.write(fileOutputStream);

        //关闭流

 fileOutputStream.close();

        //结束时间

  long endTime = System.currentTimeMillis();

        //输出花费的时间

 System.out.println( "花费的时间:" +(double)(endTime - beginTime)/1000);

    }

}

运行发现excel已经创建成功,速度也非常的快

打开查看

已知03版本xls最多存65536行,那么如果我们循环插入65537行会怎么样呢? 保留源代码,循环最大值设置为65537

再次运行发现会报错

java.lang.IllegalArgumentException: Invalid row number (65536) outside allowable range (0..65535)

07版本XSSF循环插入65536条

把后缀改为xlsx,把HSSF缓存XSSF即可



package com.wyh.Test;



import org.apache.poi.hssf.usermodel.HSSFWorkbook;

import org.apache.poi.ss.usermodel.Cell;

import org.apache.poi.ss.usermodel.Row;

import org.apache.poi.ss.usermodel.Sheet;

import org.apache.poi.ss.usermodel.Workbook;

import org.apache.poi.xssf.usermodel.XSSFWorkbook;

import org.junit.Test;



import java.io.FileOutputStream;



 /**

 *  @program:  JavaExecl

 *  @description:  大数据量写03版本

 *  @author:  魏一鹤

 *  @createDate:  2021-12-14 23:31

 **/



public class BigDateExcelWrite07 {

    //全局路径,供我们操作使用方便

  static String path = "D:\Tools\JavaWorkSpace\JavaExecl\" ;



    @Test

    public void BigDateExcelWrite07() throws Exception {

        //开始时间 用于计算时间差

  long beginTime = System.currentTimeMillis();

        //创建工作簿 07版本的使用XSSF

 Workbook workbook = new XSSFWorkbook();

        //创建工作表 这里就不给它命令了 按照默认的来

 Sheet sheet = workbook.createSheet();

        //写入数据 循环插入65536行数据,03版的HSSF最多只能插入65536行

  for (int rowNum = 0; rowNum < 65536; rowNum++) {

            //循环创建行

 Row row = sheet.createRow(rowNum);

            for(int cellNum=0;cellNum<10;cellNum++){

                //循环插入列

 Cell cell = row.createCell(cellNum);

                //循环设置值

 cell.setCellValue(cellNum);

            }

        }

        System.out.println( "生成excel表完毕" );

        //037版本的后缀是xlsx

 //开启文件流

 FileOutputStream fileOutputStream = new FileOutputStream(path + "BigDateExcelWrite07.xlsx" );

        //开始写excel

 workbook.write(fileOutputStream);

        //关闭流

 fileOutputStream.close();

        //结束时间

  long endTime = System.currentTimeMillis();

        //输出花费的时间

 System.out.println( "花费的时间:" +(double)(endTime - beginTime)/1000);

    }

}

虽然也运行成功,但是可以明显感觉到速度不如03版HSSF,但是可以存更多的数据

打开excel查看发现数据到了65536停并没有结束,说明07版本XSSF上限不是65536,是可以存储更多的,可以写更多的数据

如果我们正在查看同一个文件,但是又进行其他操作,就会出现以下错误,我们把我们正在查看的文件关闭让它运行,等运行结束后再次打开即可

java.io.FileNotFoundException: D:\Tools\JavaWorkSpace\JavaExecl\BigDateExcelWrite07.xlsx (另一个程序正在使用此文件,进程无法访问。)

07版本XSSF导入100000条数据,把循环数改为100000即可

既然XSSF可以存这么多数据,但是速度比较慢,有没有方法可以优化效率呢(缓存,这个问题也可以叫做如何给poi加速

它就是Workbook借口三个实现类之一的SXSSFWorkbook,其他的两个我们上面都有操作过

这时候需要用到我们的SXSSF

优点:可以写非常大的数据量.如100万条甚至更多,写速度非常快,占用更少的
注意

1 过程中会产生临时文件,需要清理临时文件

2 默认由100条记录被保存在内存中,如果超过这数量,则最前面的数据被写入临时文件,当然缓存数量也可以自定义

3 如果自定义内存中数据的数量,可以使用new SXSSFWorkbook(数量)

SXSSF循环插入100000条数据



package com.wyh.Test;



import org.apache.poi.ss.usermodel.Cell;

import org.apache.poi.ss.usermodel.Row;

import org.apache.poi.ss.usermodel.Sheet;

import org.apache.poi.ss.usermodel.Workbook;

import org.apache.poi.xssf.streaming.SXSSFWorkbook;

import org.apache.poi.xssf.usermodel.XSSFWorkbook;

import org.junit.Test;



import java.io.FileOutputStream;



 /**

 *  @program:  JavaExecl

 *  @description:  大数据量写03版本

 *  @author:  魏一鹤

 *  @createDate:  2021-12-14 23:31

 **/



public class BigDateExcelWrite07Super {

    //全局路径,供我们操作使用方便

  static String path = "D:\Tools\JavaWorkSpace\JavaExecl\" ;



    @Test

    public void BigDateExcelWrite07Super() throws Exception {

        //开始时间 用于计算时间差

  long beginTime = System.currentTimeMillis();

        //创建工作簿 07版本的使用XSSF

 Workbook workbook = new SXSSFWorkbook();

        //创建工作表 这里就不给它命令了 按照默认的来

 Sheet sheet = workbook.createSheet();

        //写入数据 循环插入65536行数据,03版的HSSF最多只能插入65536行

  for (int rowNum = 0; rowNum < 100000; rowNum++) {

            //循环创建行

 Row row = sheet.createRow(rowNum);

            for(int cellNum=0;cellNum<10;cellNum++){

                //循环插入列

 Cell cell = row.createCell(cellNum);

                //循环设置值

 cell.setCellValue(cellNum);

            }

        }

        System.out.println( "生成excel表完毕" );

        //037版本的后缀是xlsx

 //开启文件流

 FileOutputStream fileOutputStream = new FileOutputStream(path + "BigDateExcelWrite07Super.xlsx" );

        //开始写excel

 workbook.write(fileOutputStream);

        //关闭流

 fileOutputStream.close();

        //由于SXSSF会产生临时文件,这里我们需要清除下临时文件

 ((SXSSFWorkbook) workbook).dispose();

        //结束时间

  long endTime = System.currentTimeMillis();

        //输出花费的时间

 System.out.println( "花费的时间:" +(double)(endTime - beginTime)/1000);

    }

}

运行发现,excel也正常生成了,但是它(SXSSF)的速度比XSSF快的多

查看我们的super

这就是我们的临时文件,随着我们把文件的关闭,临时文件也会随之消失