音视频技术开发周刊 | 201

506 阅读7分钟

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com

小提示:链接跳转仅支持公众号相关链接

图片

HDR:为用户打造的视觉盛宴

随着时代的发展,人们越来越不满足于屏幕画面有限的色彩,开始研究如何让画面与现实世界更加相似。本次LiveVideoStackCon 2021上海站大会我们邀请到了快手音视频技术部的章佳杰。他以几个小故事作为引子,来分析照片无法完美重现现实世界的原因,并分享关于HDR高动态范围视频干货。

OneVPL与FFmpeg/GStreamer硬件编解码器

相对软件Codec来说,人们对硬件Codec的应用并不太熟悉。本次LiveVideoStackCon 2021 上海站大会我们邀请到了来自英特尔的媒体工程师——许广新,来为我们分享Intel在硬件编解码器中的最新研发进展。

图片

IETF访谈:HTTP/3全球份额持续增长,QUIC前景一片光明

本篇文章为IETF近期对Lucas Pardue 关于QUIC标准化工作的访谈。作者为IETF Blog 记者Grant Gross。

HTTP 请求之合并与拆分技术详解

本文进行了一个简单的实验,尝试通过数据来分析 HTTP 中的合并与拆分,以及并发请求是否影响其他请求。

图片

VVC快速仿射运动补偿

VVC采用多类型树(MTT)进行块划分,提供了更灵活的块划分方式,但是也极大的提高了复杂度。在此基础上的仿射运动补偿(AME)更加增加了复杂度。论文通过提取特征有效的反映MTT和AME的统计特性,并利用这些特征冗余的AME过程节省AME处理的时间。

中科大的AI图像/视频编解码综述

论文来自中科大的团队,回顾了使用深度学习进行图像/视频编解码的代表性工作。

zhuanlan.zhihu.com/p/379450898

图片

微信小游戏直播 — Android跨进程渲染推流实践

微信小游戏出于性能和安全等一系列考虑,运行在一个独立的进程中,在该环境中不会初始化视频号直播相关的模块,这就意味着小游戏的音视频数据必须跨进程传输到主进程进行推流,给我们实现小游戏直播带来了一系列挑战。

图片

思科Webex与下一代视频会议

视频会议在人们的日常生活中使用愈发频繁,尤其是在新冠肺炎疫情的影响下视频会议市场急剧增长,由此引发了思科网讯视频技术的不断更新。本次分享,我们邀请到了思科协作技术事业部的首席工程师Thomas Davies先生,他向我们分享了AV1的发展历程,开发AV1时所受到的挑战,以及AV2的发展前景及其在实时通信中的作用。

VideoLab - 高性能且灵活的 iOS 视频剪辑与特效框架

VideoLab 是开源的,高性能且灵活的 iOS 视频剪辑与特效框架,提供了更 AE(Adobe After Effect)化的使用方式。框架核心基于 AVFoundation 与 Metal。

音视频同步原理与实现

本文主要描述音视频同步原理,及常见的音视频同步方案,并以代码示例,展示如何以音频的播放时长为基准,将视频同步到音频上以实现视音频的同步播放。

AliCloudDenoise 语音增强算法:助力实时会议系统进入超清音质时代

近些年,随着实时通信技术的发展,在线会议逐渐成为人们工作中不可或缺的重要办公工具,据不完全统计,线上会议中约有 75% 为纯语音会议,即无需开启摄像头和屏幕共享功能,此时会议中的语音质量和清晰度对线上会议的体验便至关重要。

Facebook 新成果:用于语音识别、生成和压缩的自监督表征学习的 HuBERT

为了在音频中对这些类型的丰富词汇和非词汇信息建模打开大门,Facebook推出了 HuBERT,这是一种学习自监督语音表征的新方法。HuBERT 与 SOTA 方法在语音识别、语音生成、语音压缩的语音表征学习方面相匹配,甚至超过了 SOTA。

视频质量评价:挑战与机遇

本文整理自鹏城实验室助理研究员王海强在LiveVideoStack线上分享上的演讲。他通过自身的实践经验,详细讲解了视频质量评价的挑战与机遇。

使用高级视频质量工具 AVQT 评估视频

本文根据 Pranav Sodhani 在 WWDC 2021《Evaluate videos with the Advanced Video Quality Tool 》主题分享翻译。Pranav Sodhani,来自 Apple 显示和色彩技术团队,在算法开发、机器学习、色彩科学和视频技术方面具备专业的知识。

图片

全球首个开源图像识别系统上线了!

说到图像识别相信大家已经非常熟悉了,这一技术早就深深融入我们生活的方方面面,小到人脸解锁、支付、打卡、酒店入住,摄像头中的违规驾驶识别,网购明星同款时的以图搜图,大到自动驾驶汽车中的驾驶辅助,医疗影像的辅助诊断,图像视频的分析、编辑、再创造等等...

二次元新玩法!生成不同风格小姐姐动漫形象,肤色、发型皆可变

一张输入人脸图像,竟能生成多样化风格的动漫形象。伊利诺伊大学香槟分校的研究者做到了,他们提出的全新 GAN 迁移方法实现了「一对多」的生成效果。

目标检测究竟发展到了什么程度? | CVHub带你聊一聊目标检测发展的这22年

目标检测领域发展至今已有二十余载,从早期的传统方法到如今的深度学习方法,精度越来越高的同时速度也越来越快,这得益于深度学习等相关技术的不断发展。本文将对目标检测领域的发展做一个系统性的介绍,旨在为读者构建一个完整的知识体系架构,同时了解目标检测相关的技术栈及其未来的发展趋势。

图片

《半衰期:爱莉克斯》开发者:开发VR手部交互难在哪?

近期,日本游戏网站Kotaku采访到《半衰期:爱莉克斯》手部交互开发者Kerry Davis,了解到开发该游戏时还曾经探索过哪些方向,以及哪些玩家难以察觉,却同时优化了游戏体验的细节。

图片

自动驾驶汽车的成功取决于遥操作

遥操作(teleoperation)技术是一种达到人与被控对象之间远程交互的技术手段。遥操作的控制端在本地,其执行端在本地无法直接感知的远程空间某处。这一技术目前多用于机器人。遥操作通常来说其实就是远程操作。在自动驾驶汽车方面,遥操作技术也是大有可为的。因为目前来看,至少在未来 10 年到 20 年,自动驾驶完全无人化是不可能的,还是需要人类介入。目前世界上的核电站管理或飞机驾驶,都有人的介入,而不是百分之百靠人工智能操纵的。

CVPR 2021 | 特斯拉纯视觉自动驾驶最新进展

在 CVPR 2021 自动驾驶 Workshop 上,特斯拉 AI 总监 Andrej Karpathy 讲述了特斯拉纯视觉包括 Autopilot 和 FSD 的最新进展。

活动推荐

图片

7月4日前****购票享 8折 优惠,点击**【阅读原文】扫描图中二维码**了解详情。

插图源自__Pexels

本文使用 文章同步助手 同步