WebRTC 技术笔记（一）一、什么是 WebRTC？ WebRTC（Web Real-Time Communicat

一、什么是 WebRTC？

WebRTC（Web Real-Time Communication）是一个开源框架，它让浏览器和移动应用之间能直接进行实时音视频和数据通信，无需安装任何插件或第三方软件。这项技术最初由 Google 开发，现已由 W3C 和 IETF 共同维护，并于 2021 年 1 月正式成为 W3C 标准。如今，Google Meet、Zoom、Discord 等主流应用的网页版均基于 WebRTC 实现实时通信。

WebRTC 的核心优势在于极低的延迟。它基于 UDP 传输协议，优先保证实时性而非完美的可靠性。对于自然对话所需的 500 毫秒以内的响应时间，UDP 相比 TCP 更能提供稳定一致的体验，不会因丢包重传而产生不可预测的延迟。

二、核心架构与工作原理

WebRTC 的整体架构可以概括为三个主要层次：媒体捕获层、信令传输层和点对点连接层。

2.1 三大核心 API

WebRTC 在浏览器端提供了三个 JavaScript API，开发者无需深入复杂的网络细节即可调用：

API	功能说明
`getUserMedia`	请求用户授权，获取摄像头、麦克风或屏幕共享的媒体流
`RTCPeerConnection`	管理端到端连接的“引擎”，负责媒体传输、加密、丢包恢复、网络自适应和 ICE 协商
`RTCDataChannel`	在端之间传输任意数据（文本消息、文件、游戏状态等），运行于 DTLS 之上的 SCTP 协议

2.2 连接建立的核心机制

建立一条 WebRTC 端到端连接，需要解决“双方如何找到对方”“如何协商媒体格式”“如何穿透 NAT/防火墙”等一系列网络难题。WebRTC 通过以下机制协同完成：

信令（Signaling）：WebRTC 本身不规定信令协议，开发者需自行实现信令服务器（通常通过 WebSocket）来交换两类关键信息：

SDP（Session Description Protocol）：描述通信双方的媒体能力，包括支持的编解码器（如 VP8、H.264、Opus）、分辨率、比特率等。发起方创建 Offer，响应方回复 Answer。
ICE 候选地址：包含端点的网络路径信息，用于寻找双方均可用的通信路线。

ICE（Interactive Connectivity Establishment）：WebRTC 使用 ICE 框架来发现和测试所有可能的网络路径，从最优到最差依次尝试：

STUN（Session Traversal Utilities for NAT）：帮助设备发现自己的公网 IP 和端口，从而让 NAT 后的设备也能建立直接连接。
TURN（Traversal Using Relays around NAT）：当所有直连方式都失败时，TURN 服务器作为中继转发媒体数据，作为最后的保底方案。

DTLS（Datagram Transport Layer Security）：在 UDP 之上建立安全通道，完成加密密钥交换和端到端身份认证。WebRTC 强制使用 DTLS-SRTP 加密所有媒体流，无需开发人员额外配置。

三、安全体系：强制端到端加密

WebRTC 从协议层面将安全性作为第一优先级。根据 IETF RFC 8827，所有媒体和数据通道都强制加密，不存在“非加密模式”的配置选项。

其安全模型覆盖三个层次：

SRTP（Secure Real-time Transport Protocol）：加密音视频负载，提供机密性（防窃听）、完整性（防篡改）和重放保护。
DTLS：完成密钥交换和端对端身份认证，防止中间人攻击。浏览器内部保存密钥，JavaScript 代码无法提取。
浏览器权限控制：在操作系统层面防止未经授权的摄像头和麦克风访问。

需要特别指出的是，WebRTC 提供的是传输层的端到端加密，而非“端到端”的绝对通信保密——如果使用 SFU（Selective Forwarding Unit）等媒体服务器进行多人路由，这些服务器在解密重新加密后，可接触到明文媒体内容。真正的“端到端”加密需在应用层额外实现。

四、应用场景（2026 年最新进展）

WebRTC 的应用远不止于视频通话。以下是 2026 年最具影响力的几个应用方向：

大规模直播：已有技术方案实现单路 WebRTC 直播流同时服务 10 万 并发参与者，同时保持超低延迟、稳定帧率和零丢包率。
视频会议与在线教育：提供无缝的音视频会议、屏幕共享、白板协作等能力，且无需任何插件。
实时视频监控：利用 WebRTC 传输 IP 摄像头画面，相比传统 RTSP 协议可大幅降低延迟，实现近乎即时的远程查看。
物联网（IoT）与嵌入式设备：WebRTC 为边缘设备提供统一的加密、NAT 穿透和标准化会话协商能力，工业设备、医疗终端和智能家居纷纷采用 WebRTC 实现实时交互和远程诊断。
AI 智能体实时交互：WebRTC 已成为需要实时语音和视频交互的 AI Agent 的标准传输层，通过 pion（Go）、aiortc（Python）、werift（Node.js）等服务端库，AI 可以作为“机器人端”加入会话，接收用户的音视频流进行处理。

五、局限性与挑战

规模化难题：纯 P2P 模式下，多人会议会导致每个客户端的上行带宽和 CPU 负载呈线性增长（N 方会议需要上传 N-1 路流）。因此，实际生产环境通常引入 SFU（Selective Forwarding Unit） 等媒体服务器作为中转。
嵌入式资源消耗：完整的 WebRTC 协议栈对计算和内存有较高要求，在资源受限的嵌入式设备上需要精简部署或利用硬件加速。
安全漏洞风险：2026 年已曝光多个 WebRTC 相关漏洞，如 Chrome 中的 CVE-2026-4445（释放后使用，可能导致远程代码执行），以及 Firefox 中的多个内存边界条件问题。同时，WebRTC 的加密 UDP 通道和不受 CSP 规则约束的特性，也首次被攻击者用于支付盗刷，绕过传统安全监控。
NAT 穿透不确定性：虽然 ICE/STUN/TURN 框架尽可能覆盖各种网络环境，但部分严苛的企业防火墙或对称 NAT 仍可能导致直连失败，不得不依赖 TURN 中继服务器。