FFmpeg基本概念和用法

528 阅读6分钟

0. 前言

FFmpeg号称是音视频应用的瑞士军刀,广泛应用于视频网站和大型软件如Youtube和Chrome。它诞生于2004年,在LGPL、GPL协议下发布,任何人都可以在遵守协议的情况下自由使用。

FFmpeg由C语言实现, 具有良好的跨平台特性,适用于PC和各种嵌入式设备。FFmpeg原生提供了C语言API,也有各路大神为其他编程语言提供的适配器,常见编程语言基本上都能找到对应适配器,比如:
Java版:JavaCV
Python版:ffmpeg-python
甚至浏览器上也能跑,Javascript版:ffmpeg.wasm

2984082148-6337a2a39a09a_fix732.png

FFmpeg主要由两大部分组成:
第一部分:
3个独立的可执行应用程序,分别是:

  1. ffmpeg.exe:音视频转码器;
  2. ffplay.exe:音视频播放器;
  3. ffprobe.exe:多媒体码流分析器。

第二部分:
7个应用开发库,可以根据各自不同需求灵活使用这些库,开发自己的应用。

  1. libavcodec:音视频编码器和解码器;
  2. libavformat:各种多媒体容器格式的封装、解封工具;
  3. libavutil:多媒体应用常用的工具集,主要是为了简化开发。包含诸如字符串处理函数、随机数生成器、常用数据结构、数学函数、加密和多媒体相关函数等;
  4. libavdevice:通用的音视频采集和渲染框架,支持多种输入输出设备;
  5. libavfilter:通用的音视频过滤框架,包含多种过滤器;
  6. libswscale:高性能图像伸缩、色彩空间、像素格式转换;
  7. libswresample:高性能音频重采样,采样格式转换。

FFmpeg的下载和安装,可以查看官网文档

1. 基本概念

要把FFmpeg用好,需要对视音频处理有全局视野和核心知识储备,不至于走太多弯路。有必要先熟悉一些基本概念。

1.1 原始数字视频和音频

与模拟信号区分开,即用数字信号来表示视频和音频。 视频本质上是一帧帧的图像在连续播放,由于帧率(即一秒钟匀速呈现图像的张数,如25帧/秒)超过了人眼识别的速度,给人一种连续的感觉。音频也是同样道理,音频由一个个采样点组成(PCM),通常采样率(8000KHz)超过人耳能辨别的速度。

1.2 编码格式

原始音视频数据量巨大,存储和传输都成很大问题,于是人们发明了各种压缩算法来降低数据量,这些算法就是编码器和解码器。 常见的视频编码格式有:

H.264
H.265
VP8
VP9

常见的音频编码格式有:

AAC
MP3

以上这些编码格式都是有损的,意思是经过压缩后,原始信息的一部分丢失并无法复原了,但是好处是体积极大的降低了。 用FFmpeg查询所有支持的编码格式

ffmpeg -codecs

1.3 编码器/解码器

编码器、解码器分别是用于针对一种编码格式进行编码(压缩)和解码(解压缩)的,需要注意的是对同一种编码格式如H.264,可能存在多种编码器和解码器,如libx264包含了H.264编码器和解码器,而nvenc_h264只包含H.264编码器。

FFmpeg查询所有支持的编码器

ffmpeg -encoders

FFmpeg查询所有支持的解码器

ffmpeg -decoders

1.4 封装格式

封装格式又叫容器格式,常见的有avi、flv、mp4等。容器可以实现把多种媒体数据封装在一个文件里,比如把一路H.264的视频和一路MP3的音频,封装到flv容器里。

FFmpeg查询所有支持的容器格式

ffmpeg -formats

每一种容器,能装载的媒体格式是有限制的,可以进一步的,使用下面命令查看ffmpeg支持的容器格式相关参数,包括默认的音频编码和视频编码

ffmpeg -h muxer=容器格式 

ffmpeg -h muxer=flv 用于查看flv容器格式详细信息。

1.5 封装器/解封装器

封装器、解封装器分别用于针对一种封装格式进行封装(合并)和解封装(拆分)。

FFmpeg查询所有支持的封装器

ffmpeg -muxers

FFmpeg查询所有支持的解封装器

ffmpeg -demuxers

1.6 基本转码流程

有了上面基础概念,我们可以理解FFmpeg基本的转码流程,如下图所示

graph LR
输入文件 --解封装器--> 编码后数据包1 --解码器--> 解码后数据帧 --编码器--> 编码后数据包2 --封装器--> 输出文件

2. FFmpeg的使用

FFmpeg命令行很强大也复杂,但最常用的并不复杂。通常只需要掌握简单版本,就可胜任80%的功能了

2.1 简单版FFmpeg使用

ffmpeg [全局参数] [输入文件参数] -i 输入文件 [输出文件参数] 输出文件

注:命令中用[ ]括起来的是可选项

例1:flv转mp4

ffmpeg -i demo.flv out.mp4

例2:将pcm转为mp3

ffmpeg -y -f s16le -ac 1 -ar 8000 -acodec pcm_s16le -i out.mp3

注:由于pcm文件不包含参数信息,需要通过[输入文件参数]来指定


例3: 查看文件信息

ffmpeg -i demo.flv

例4:转编码格式

ffmpeg -i demo.flv -c:v h264 -c:a aac out.mp4

例5:转文件容器格式

ffmpeg -i demo.flv -c copy out.avi

例6:剪切音视频

ffmpeg -ss 00:00:00 -t 00:00:30 -i demo.flv -vcodec copy -acodec copy out.mp4

2.2 高级版FFmpeg使用

ffmpeg [全局参数] {[输入文件参数] -i 输入文件} {[输出文件参数] 输出文件}

注:命令中{}括起来部分,代表可以重复出现多次,因此FFmpeg可以有多个输入文件、多个输出文件,并且单独为每个输入或输出设置参数。

例如 ffmpeg -i A.avi -i B.mp4 out1.mkv out2.wav 就是一个合法的FFmpeg命令。
那就引出了一个问题,FFmpeg是如何知道,这些音频和视频,分别输出到哪个文件里呢?
原来,[输出文件参数] 里有个map参数,可用于选择输入的来源。注意,map参数是输出文件的参数,是输出选择输入,而不是输入选择输出。一定要明确FFmpeg的这种模式。

如果没有为输出指定map参数,FFmpeg将按照默认规则,自动选择输入源

  • 对于视频,选择分辨率最高的那个
  • 对于音频,选择通道数最多的那个

map参数组成[输入文件序号]:[流序号] ,或者 [输入文件序号]:[a/v]:[流序号]
其中a/v用于指定音频或视频
例如:

  • -map 0 选择第1个文件,选择所有流
  • -map 1:a 选择第2个文件,选择所有音频流
  • -map 3:a:2 选择第4个文件,选择第3个音频流

下面这个例子,从第1个文件获取视频流,从第2个文件获取音频流,生成一个mp4文件

ffmpeg -i video.mp4 -i audio.m4a -map 0:v -map 1:a output.mp4

2.3 参数说明

参数参数说明
-y允许覆盖(全局参数)
-f s16le指定容器格式为s16le
-ac 1指定音频通道数为1
-ar 8000指定音频采样率为8k
-acodec pcm_s16le指定音频编码格式为pcm_s16le
-acodec pcm_s16le指定音频编码格式为pcm_s16le
-c:v h264指定视频编码格式为h264
-c:a aac指定音频编码格式为aac
-c copy编码格式保持不变
-ss指定从什么时间开始
-t指定需要截取多长时间
-map 0选择第1个文件,选择所有流
-map 1:a选择第2个文件,选择所有音频流
-map 3:a:2选择第4个文件,选择第3个音频流