基于对编码技术的持续深耕和创新突破,腾讯云在MSU视频编码器大赛中拿下两个重量级冠军。
10月30日,莫斯科国立大学(Moscow State University)举办的2021年视频编码器大赛放榜,H.265和AV1这两个赛道的结果被业界关注,是目前业界广泛应用和快速发展的两个主要技术方向。
在H.265赛道,腾讯云持续打造的V265编码器已经连续四年保持行业领先,各项指标排名全部第一,相对第二名优势明显;在AV1赛道,腾讯云今年首次推出的VAV1自研编码器也实现全部指标第一,取得面向新一代编码技术的又一突破。全部指标包含PSNR-MSE、PSNR-LOG、SSIM、MS-SSIM、VMAF、VMAF-NEG等多项指标。
视频编码是一种对视频数字化信息进行压缩的底层核心技术,旨在节省视频传输和存储的带宽。在4K/8K高清视频快速发展、网络带宽压力日益凸显的当下,视频编码技术成为各大互联网公司重点投入的研发领域。
MSU视频编码器大赛作为视频压缩领域最具影响力的顶级赛事,迄今已连续举办了十六届,吸引了包括英特尔、谷歌、英伟达、华为、阿里和腾讯在内的国内外知名企业参与。今年大赛竞争更加激烈,总计有22个编码器公开测试结果,相比起去年数量翻了一倍以上。
精耕细作,腾讯V265编码器连续四年领先
凭借在V265技术方向上的持续积累和极致优化,腾讯V265编码器在激烈竞争中继续保持领先地位,慢速(1帧每秒)和快速(30帧每秒)编码档位都取得第一。
在快速编码档位,V265和第二名相比领先优势明显。
(小标题)腾讯VAV1编码器首次参赛即拿下赛道全部指标第一
新一代编码技术是许多科技公司正在抢占的研发高地。其中,AV1专利友好且生态完备,主流浏览器都已支持AV1高速软解;越来越多的手机、电视、显卡设备也逐步支持AV1硬件解码。2019年,腾讯成为第一个加入其背后标准制定组织AOM(开放媒体联盟)的中国企业,足见对这一技术方向的重视。
图:下一代编码AV1的H5生态支持
VAV1编码器与V265一样,完全依靠腾讯自身力量研发而成。技术团队从标准工具开始自研设计,历时一年多已初步实现并开始部署应用,首次参赛就在新一代AV1赛道上取得各项指标第一。
经测试,VAV1已做到相比开源SVT-AV1,在加速64倍的同时,取得更高的压缩率;或者在压缩率节省超过11.5%时,加速7.23倍。
当前VAV1编码器也在腾讯云直播转码业务中率先应用,在支持1080p@60fps的直播转码时,相比X265可节省38%以上带宽。
此外,VAV1编码器为腾讯云提供了AVIF图片编码能力,比webp压缩率节省超30%,耗时仅增加48%,并支持云上超大图片编码、HDR编码和alpha通道编码等需求。
随着5G的普及,全真互联网时代正在加速来临,云游戏、VR和4K/8K高清直播等超高清流媒体应用迅猛增长,视频编码是决定体验和成本的关键技术。凭借在编码算法和硬件设计方面的多年积累,腾讯云自研编码器将会进一步在视频画质、带宽占用、计算成本等方面为行业提供性能更佳的解决方案,与腾讯实时音视频(TRTC)等领先音视频技术形成组合拳,助力产业快速发展。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。