阿里云周源:一篇文章读懂四代视频加密技术演进

885 阅读12分钟

在刚刚圆满落幕的LiveVideoStackCon峰会上,阿里云高级技术专家周源进行了《视频加密和DRM的实施实践》主题分享。周源,有十多年音视频研发经验,之前在淘宝视频负责开放平台,目前在阿里云视频云部门负责媒体处理,在大规模系统建设和云计算方面都有非常丰富的实战经验。本文为演讲原文,希望对视频内容安全从业者有一些启发。

在视频加密这块,其实是一个攻防战,攻防的手段非常多,还会不断的翻新,有很多技术手段,技术的发展也是日新月异。视频保护技术其实已经升级了好几代,我会给大家介绍下每一代技术是怎么做的、背后的原理、遇到的问题以及业界的解法。会从数据加密、全链路保护、数字版权管理、内容识别四个方面来介绍。

数据加密原理——算法的选择

最初,数据加密原理非常简单,我们在生活中如果有一样东西你想保护它,你会怎么办,你的第一反应可能就是拿把锁把他锁起来,自己保护好钥匙。在数字领域,这个“锁”有好多种,一种叫对称型的,一种叫非对称型的。

这两种算法分别有各自的优缺点,对称型算法的优点是计算量非常小,速度快,效率高。而它的缺点是密钥的管理和分发非常困难,如果别人配了相同的一把钥匙,就可以打开这把锁了,不够安全。常见的算法包括AES、EDS。非对称型算法的优缺点其实和对称型是相对的,优点是算法是公开的,你可以看到所有细节,即使这样,安全性也非常高。非对称算法有两种类型的钥匙:公钥和私钥。公钥可以开放给所有人,内容只能通过私钥加密,加密完成后,使用公钥就可以解密,但是不能进行加密。但是缺点是加密和解密花费的时间长,速度慢,所以不适合对大量数据加密,只适合少量数据的加密。常见的算法包括RSA、ECC。

在视频场景下,怎么去权衡对称加密和非对称加密?

媒体介质经历了几次升级,最早是文本,几十KB就是非常大的一个小说了;到了图片就发展到了几百KB,甚至MB的级别;如今视频时代,量级上到GB级别。所以视频的第一个特点是数据量大,加密算法速度不行的话是不够实用化的。

视频的应用越来越广泛,它不仅仅局限于某一个平台。用户会在各种操作系统、各种终端设备上去观看视频,在选择算法的同时,一定要考虑平台标准化这块。

更进一步的话,需要考虑移动端的功耗问题,大家做视频都在能耗和发热做斗争,选择算法的时候,一定要考虑功耗问题。

image

最终的选择——AES算法

基于以上考虑,业界大家最终会选择AES算法。它具有以下特点:

  1. 安全性,AES算法从数学上证明是安全的。把加密好的文件给到你,你没拿到钥匙的情况下,暴力破解需要花2104亿年的时间,这几乎是一个不可能完成的任务。现在也存在一种旁路攻击的方法,攻击的是实现方法,不是算法本身。攻击成本比较高,在增加成本的前提下,实现上是有规避的方法。所以安全性还是有保障的。
  2. 这个算法衡量了时-空占比,速度快、消耗小,适合小型系统上工作。
  3. 算法也非常标准化,也在绝大部分的硬件芯片、软件平台中进行内置,可以用硬件本身的能力快速做计算。

一般情况下密钥越长,安全性越高。但是密钥短并不代表运算速度一定会快。同时,因为均衡了时-空占比,AES算法的资源消耗也是最低的。所以,AES算法在对称算法中是首选。

image

AES算法的经典应用——HLS数据加密

举个例子,HLS协议使用M3U8文件格式。关键性的信息是下图中橙色的一行,这里加了KEY的信息。它的原理是播放器从网上把m3u8下载下来,解析后得到KEY,并且传递给服务器询问请求通过不通过,服务器如果认证通过,会把真实的KEY返回给播放器进行播放。

image

仅仅使用AES加密来包含内容时,它的安全问题出在哪里呢?

它的最关键的问题是——钥匙URL。因为URL要被写在文件里的,不管你做什么变化,无论加session、referer、token,它都是标准的HTTP请求,这是HLS加密的最大风险点。

因为网络请求是公开的,我们怎么保障网络传输安全性?防御中间人攻击?
而在客户端拿到钥匙后,实际上是明文内容,客户端的安全性又该如何保障?

如此我们便有了新解法——全链路保护

这里有两个很重要的原则,第一个是中间网络是不可信的,第二个是客户端是不可信的。接下来看看这两个问题如何解决。

关于中间网络不可信,HTTPS是最经典的方案。因为HTTPS整个流程保证了没有任何人能窃取中间的信息,安全的从服务端传递到客户端。

image

它整个流程是:黑色的部分是公开的,谁看到都不会影响安全性。客户端向服务端请求一次,服务端会返回公钥,客户端用公钥去把自己的对称钥匙保护一次。接着把加密后的对称钥匙传递给服务端,服务端使用秘钥解码后得到对称钥匙。这时候客户端和服务端双方都知道对称钥匙了,然后用对称钥匙对数据加密进行传递。这个方案即解决了安全性问题,又解决了效率问题。

关于客户端不可信。通常客户端是非常复杂的,常见的是浏览器,标准也很多(如下图)。但是在整个规划中,很重要的一点是:“有定义,但没有实现”。每个浏览器都支持H5的DRM方案,但是每个浏览器的支持方式都是不一样的。

image

H5整个流程是,当解码器拿到加密数据之后,数据流会经过CDM,这个模块会和外部系统进行通讯,去和License服务获取内容钥匙和授权规则,经过了这一步才能真正把流解密成明文数据去做渲染。所以,虽然有了H5的规范,但是实际上还是会被厂商绑定,客户端安全性完全由厂商提供的CDM来决定。

移动端方面,分为Web端和APP。Web端浏览器是非常复杂的,各种定制的WebKit引擎不支持内容解码模块(Content Decryption Module),只能采用JavaScript去写代码,它是明文代码,安全性很差。现在有一个新的技术WebAssembly,它是把JS编译一下,增加了破解的难度,但是还是没有从源头解决这个问题。APP是没有任何标准了,都靠自己去定制。

如此看来,我们想解决客户端不可信这件事,其实还有很多障碍在里面。同时,客户端不可信带来了很多问题,你没法知道你客户端里是好人还是坏人,如果是恶意用户,他的破坏力普通比较强,会给平台带来很大的损失。

全链路的保护解决了网络传输的安全,但是客户端的安全问题没有得到彻底完全的解决,所以在业界有了第三种解法:数字版权保护(DRM)。

更安全的加密方式——数字版权保护DRM

DRM基本是三足鼎立的情况,微软的PlayReady,谷歌的Widevine,苹果的FairPlay。不同操作系统、浏览器和移动平台需要不同的方案,所以看起来我们没办法用一套方案把所有的加密都做完。

image

所以如何跨平台把问题解决掉?——多重DRM解决方案

我们分别来看看三个厂商的方案:PlayReady方案中,当你的设备和服务得到一个认证后,才能接着发起License请求,分了两个阶段来提交。Widevine方案中,通过第一段来控制是否有权限复杂的钥匙,再从License去拿真正的钥匙。FairPlay方案中,播放器第一个流程是认证,第二个流程是获取License。

如此,我们有了多重DRM解决方案,它的流程是Player去问认证服务允不允许访问视频,后台经过认证后,会给一个认证后的token。当认证允许访问的时候,通过CDN分发网络从源站获取内容,当拿到内容后,有了token和视频KEY ID,就会把License返回,这里才有真正能解密内容的钥匙。

image

多重DRM可以降低加密成本,对于不同平台,把整个流程做一致化,只需要一份加密资产,降低了加密流程成本和管理成本。同时,因为原生 DRM 客户端在其原生平台上通常是免费提供的,也可以消除客户端的许可成本。

从技术角度上,整个业界有通用加密格式的规范,可以很好的把加密内容安全地传输到客户端。但是有一个现实情况,FairPlay的加密算法是不同的,为了实现多重DRM方案,我们需要两份加密资产,才能真正做到跨平台的保护。

那么DRM是否是最终的加密方案呢?从安全性上来讲,DRM用了非对称算法,但是依然会面临主密钥泄露这个问题,网上也出现HDCP主秘钥泄露、4K视频版权保护技术被破解等案例。

我们用钥匙去保护视频、在全链路保护上做了很多改进,并且采用了更安全的多重DRM方案,我们试图用各种方法把内容保护起来,这些思路都叫被动保护。被动包含的每种方法都有自己的缺陷,所以我们给出一种新的思路,叫内容识别。

主动保护——内容识别

目前,版权保护遇到的问题是“内容所有权”跟“版权”的关系越来越复杂,这使我想起凯文.凯利在《必然》中曾提出:“对已有事物的重新排列和再利用,而对传统的财产观念和所有权概念产生巨大的影响。”

这里面就延伸出来很多问题,用户是否对原有素材做了一定的转化,还是仅仅复制了原作?我们应该是严格禁止还是开放包容的态度?在这个全民导演的时代,我们可以看到很多用户把自己录制或者网上收集的素材重混起来,就成为了很成功的新作品。当然,版权方也有真实的案例,即使得内容得到了很好的二次传播,还惊喜地获得额外的收益。面对这样的情况,我们该如何进行高效地内容识别和保护?

image

视频指纹——给视频赋予唯一身份

阿里云视频云团队自研了视频指纹技术,它是一种识别、提取、压缩视频的技术,可以产生唯一的“指纹”来代表视频文件进行视频查找。你可以通过算法得到指纹信息,用这个指纹信息和版权库中的视频进行检索匹配,就可以很迅速地找到相似的视频源。它不仅判断唯一性,还可以找到究竟使用了视频源的哪一段。

image

视频指纹技术可以解决如下的场景的问题:

1. 版权保护

新增视频与版权库做比对,对存在版权风险的视频进行播放控制,降低侵权风险;对自有版权的视频资源,从公网抓取视频数据鉴别,防止自有版权内容被侵权。

2. 原创识别

能识别这段视频是从哪个片子剪辑出来的,识别视频是否是原创视频、剪辑后视频、自媒体再创造视频。

3. 广告分成

传播不要紧,当能做到视频回溯的时候,就可以判断新上传的视频原创性,检索分成库召回认领视频,找到真正的视频版权主,从而支撑广告分成业务生态。

回顾

整体视频保护技术历经了几次升级,最后,我们进行一个回顾和总结。

数据加密

它是有安全基础,有算法保障的,但是没有解决问题

全链路保护

整体的保护方案,但是无法落地,没办法大规模使用

数字版权管理(DRM)

更完善、更安全的保护方案,但是依旧存在风险

内容识别

改变思路,变被动为主动,开拓更广阔的空间