文件 转换 解析

301 阅读4分钟

换行符, enter 键 回车

CRLF

  • LF 是用来表示文本换行的方式。*CR(Carriage Return) 代表回车,对应字符'\r' *;
  • LF(Line Feed) 代表换行,对应字符'\n'

image.png

文件类型

文本文件类型

1、文本文件格式包括“ ASCII、MIME、.txt ”。

2、ascii一般在 widows 和 dos等各种系统 中可以自由的交互。

3、mime是可以 在os中被指定的文件 。

4、.txt是格式信息的 文字文件扩展 , 没有详细定义 ,可以 用在小说上 。

、视频文件格式

1、微软: wmv、asf、asx。

2、Real Player: rm、 rmvb。

3、MPEG: mp4。

4、手机: 3gp。

5、苹果手机: mov、m4v。

6、其他: avi、dat、mkv、flv、vob等。

音频文件格式

1、音频的主要格式包括了,“ Wave、AIFF、Audio、MPEG、RealAudio、MIDI ”。

图片文件格式

常见的格式为“ JPEG、TIFF、RAW、BMP、GIF、PNG ”

可执行文件格式

一般的格式为: .exe文件 .sys文件 .com 等。

PDF\WORD\PPT\OFD

csv

本质是 文本文件,格式 逗号 分割一列, 回车表示一行 crlf /r/n

判断真实的文件类型

通过文件头判断:可以使用文件头特征码来判断文件的真实类型,比如JAVA文件的文件头特征码为0xCAFEBABE,可以通过读取文件的前4个字节来判断文件是否为JAVA文件。

package com.ruoyi.vip.fileLearn;
 
public enum FileType {
    /**
     * JEPG.
     */
    JPEG("FFD8FF"),
 
    /**
     * PNG.
     */
    PNG("89504E47"),
 
    /**
     * GIF.
     */
    GIF("47494638"),
 
    /**
     * TIFF.
     */
    TIFF("49492A00"),
 
    TXT("6C657420"),
 
    /**
     * Windows Bitmap.
     */
    BMP("424D"),
 
    /**
     * CAD.
     */
    DWG("41433130"),
 
    /**
     * Adobe Photoshop.
     */
    PSD("38425053"),
 
    /**
     * Rich Text Format.
     */
    RTF("7B5C727466"),
 
    /**
     * XML.
     */
    XML("3C3F786D6C"),
 
    /**
     * HTML.
     */
    HTML("68746D6C3E"),
 
    /**
     * Email [thorough only].
     */
    EML("44656C69766572792D646174653A"),
 
    /**
     * Outlook Express.
     */
    DBX("CFAD12FEC5FD746F"),
 
    /**
     * Outlook (pst).
     */
    PST("2142444E"),
 
    /**
     * MS Word/Excel.
     */
    XLS_DOC("D0CF11E0"),
 
    /**
     * MS Access.
     */
    MDB("5374616E64617264204A"),
 
    /**
     * WordPerfect.
     */
    WPD("FF575043"),
 
    /**
     * Postscript.
     */
    EPS("252150532D41646F6265"),
 
    /**
     * Adobe Acrobat.
     */
    PDF("255044462D312E"),
 
    /**
     * Quicken.
     */
    QDF("AC9EBD8F"),
 
    /**
     * Windows Password.
     */
    PWL("E3828596"),
 
    /**
     * ZIP Archive.
     */
    ZIP("504B0304"),
 
    /**
     * RAR Archive.
     */
    RAR("52617221"),
 
    /**
     * Wave.
     */
    WAV("57415645"),
 
    /**
     * AVI.
     */
    AVI("41564920"),
 
    /**
     * Real Audio.
     */
    RAM("2E7261FD"),
 
    /**
     * Real Media.
     */
    RM("2E524D46"),
 
    /**
     * MPEG (mpg).
     */
    MPG("000001BA"),
 
    /**
     * Quicktime.
     */
    MOV("6D6F6F76"),
 
    /**
     * Windows Media.
     */
    ASF("3026B2758E66CF11"),
 
    GZ("1F8B08"),
    /**
     * MIDI.
     */
    MID("4D546864");
 
    private String value = "";
 
 
    /**
     * Constructor.
     * @param value
     */
    private FileType(String value) {
        this.value = value;
    }
 
    public String getValue() {
        return value;
    }
 
    public void setValue(String value) {
        this.value = value;
    }
}


import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
 
/**
 * @description 判断文件类型工具类
 * @author 13192
 */
public class GetFileTypeUtil {
 
 
    /**
     * @description 获取文件输入流
     * @param filePath
     * @throws IOException
     */
    private static String getFileContent(String filePath) throws IOException {
 
        byte[] b = new byte[20];
        InputStream inputStream = null;
        try {
            inputStream = new FileInputStream(filePath);
            /**
             * int read() 从此输入流中读取一个数据字节。int read(byte[] b) 从此输入流中将最多 b.length
             * 个字节的数据读入一个 byte 数组中。 int read(byte[] b, int off, int len)
             *从此输入流中将最多 len 个字节的数据读入一个 byte 数组中。
             * 之所以从输入流中读取20个字节数据,是因为不同格式的文件头魔数长度是不一样的,比如 EML("44656C69766572792D646174653A")和GIF("47494638")
             * 为了提高识别精度所以获取的字节数相应地长一点
             */
            inputStream.read(b, 0, 20);
        } catch (IOException e) {
            e.printStackTrace();
            throw e;
        } finally {
            if (inputStream != null) {
                try {
                    inputStream.close();
                } catch (IOException e) {
                    e.printStackTrace();
                    throw e;
                }
            }
        }
        return bytesToHexString(b);
    }
    /**
     * @description 第二步:将文件头转换成16进制字符串
     * @param
     * @return 16进制字符串
     */
    private static String bytesToHexString(byte[] src){
        StringBuilder stringBuilder = new StringBuilder();
        if (src == null || src.length <= 0) {
            return null;
        }
        for (int i = 0; i < src.length; i++) {
            int v = src[i] & 0xFF;
            String hv = Integer.toHexString(v);
            if (hv.length() < 2) {
                stringBuilder.append(0);
            }
            stringBuilder.append(hv);
        }
        System.out.println("文件类型16进制字符串是"+stringBuilder.toString());
        return stringBuilder.toString();
    }
    /**
     * @description 第三步:根据十六进制字符串判断文件类型格式
     * @param filePath 文件路径
     * @return 文件类型
     */
    public static FileType getType(String filePath) throws IOException {
        String fileHead = getFileContent(filePath);
        if (fileHead == null || fileHead.length() == 0) {
            return null;
        }
        fileHead = fileHead.toUpperCase();
        FileType[] fileTypes = FileType.values();
        for (FileType type : fileTypes) {
//            startsWith() 方法用于检测字符串是否以指定的前缀开始
            if (fileHead.startsWith(type.getValue())) {
                return type;
            }
        }
        return null;
    }
}