至顶网CIO与应用频道 07月09日 北京消息:目前,世界杯正在如火如荼的举行,作为足球运动最顶级的赛事,世界杯一度成为包揽近短时间的最大IP。同时,今年新成立的中央广播电视总台首次分销世界杯新媒体版权,也将今年国内球迷观赛人数拉上了一个新门槛。
顶级的赛事、立体的渠道,在世界杯直播的背后,云计算起到了关键的作用,此前有观点认为“没有云,你都看不了本届世界杯”。7月7日,腾讯云在北京Mercedes me组织了一场线下沙龙,深度揭秘了央视网世界杯极速高清直播背后的云计算技术,展示出了腾讯云AI音视频能力对世界杯等顶级体育赛事的强大支撑。
AI加码直播,极速高清、降本提速
伴随移动网络的提速降费以及智能手机的普及,短视频、直播等行业迎来了全新的春天。随着人们对视频清晰度的要求越来越高,也为众多视频企业带来了前所未有的流量压力。
“对于视频企业来说,带宽支出占很大一部分运营成本,如果想为用户提供高清的视频体验,就必须增加视频流的码率,相应的带宽的总成本也会进一步提高。而极速高清正解决了该问题,可以以更低的码率给用户提供更高清的视频。”腾讯云高级产品经理李海琦在沙龙上表示。
腾讯云高级产品经理李海琦
腾讯云极速高清技术,又叫“智能动态编码技术”,主要利用机器深度学习,通过视频场景智能分类、编码参数匹配、前置处理、编码动态优化、码率智能控制、detail reduce、ROI处理等技术和流程,对直播或者点播视频流进行智能处理,以匹配最优编码参数,从而以更低的带宽成本给用户提供更高清的视频直播流。
在视频场景智能分类方面,通过深度学习的方法,形成十几个主流大类及几十个小类场景模型库。极速高清技术服务期间,可实时对直播流进行检测分析,并匹配对应场景模型。匹配率方面,较明显的场景如游戏、足球、篮球、动漫等CNN网络模型,匹配准确率在98%以上;在电视剧、户外运动、美食、旅游等画面特征分散,帧间运动变化较大的场景下,通过CNN+RNN+LSTM做时域及空间域的分析,可保证匹配准确率在85%以上;
编码参数匹配方面,腾讯云极速高清技术,会根据场景分类实时识别结果,结合视频源码率、帧率、分辨率、纹理和运动变化幅度等情况,以及综合机器负载和画质效果等维度,选择最优编码参数;
在前置处理方面,根据不同场景分类、客户对视频画质的不同要求,以及结合视频源画面纹理和实时运动检测结果进行锐化、软模糊、反交错、去块、降噪、色阶补偿、降帧等前置处理;
腾讯云极速高清技术还支持编码动态优化,可针对不同视频类别,同一个视频内不同视频段,应用完全不一样的编码参数,且支持编码参数按帧实时更新生效。
此外,极速高清技术的码率智能控制,可将主观观看得分VMAF值提高3-5分;detail reduce技术,能够以极低的CPU消耗对噪声宏块进行优化,同时保留清晰宏块的完整性;ROI处理技术,通过SIFT+差分图像+运动目标图像检测的联动,可对POI区域的宏块编码进行强化、锐化、色阶补偿等处理。
500场模拟、百场实战,助力央视网口碑逆袭
世界杯期间,央视网选择接入腾讯云极速高清服务。“世界杯开幕赛期间,在各家直播问题频出的同时,正是凭借腾讯云极速高清技术支持的央视影音,一举实现了口碑的逆袭。”腾讯云高级工程师卢林表示。
腾讯云高级工程师卢林
卢林表示:“其实,早在今年春节,腾讯云针对世界杯比赛场景深度学习就已经开始”。今年春节后,腾讯云极速高清服务开始陆续接入一些头部游戏直播平台,并且取得了良好的反馈。
为了为世界杯场景打下极速高清的基础,腾讯云网络爬虫足球比赛视频超过500场。针对每场比赛视频在高速运动场景、足球跟随模型训练、长远镜头优化、精彩回放ROI区域增强、观众表情捕捉等细节做一些视觉效果分析以及优化效果评估,打造了世界杯最优动态编码的模型。
中超赛事期间,腾讯云向龙珠直播的中超比赛主动推广了极速高清服务,并针对中超的一些比赛逐步增加了极速高清服务;英超赛事期间,腾讯云借助架构师及商务对新英体育进行了极速高清服务的推广。在多轮的测试及优化下,腾讯云最终为世界杯的来临,打下了最坚实的极速高清基础。
“本次世界杯与央视网的合作,也正是因为极速高清技术”。卢林表示,此次世界杯前,央视决定在世界杯期间引入提升比赛清晰度的技术,作为整个视频云行业都极其看重的客户,各云服务厂商都提供了自己的解决方案。
经过几轮测试,在与对手的PK过程中,腾讯云在码率控制、去模糊、去块、反交错、运动搜索和分块决策等模块共进行了几十次服务升级和优化,最终央视网最终选择了腾讯云。数据显示,在同样的条件下,腾讯云-极速高清码率比友商少8%-10%左右。
除此之外,在本就时间紧迫的世界杯前夕,腾讯云还拿出了全新的私有化方案,在央视网搭一整套腾讯云极速高清转码集群,支持央视网世界杯期间CCTV5频道直播,RTMP/FLV推拉源流,转码处理后支持央视RTMP/FLV/HLS拉流。
最终,在世界杯开赛前,腾讯云兼容了客户硬件设备以及软件代码模块的各种适配要求。目前,这条方案的各项服务指标一切正常,出流效果也超出预期,播出效果对比其他平台优势明显。
连接视频产业,腾讯云AI驱动行业驶入快车道
2017年是各行业强监管的重要转折,直播、视频行业同样如此。在监管压力、内容创新的要求下,进入“下半场”的直播行业如何通过创新降低企业资金压力,提升行业竞争力,是企业亟待解决的问题。
今年一月份发布的《2017中国网络表演(直播)发展报告》中显示,2017年我国网络直播市场整体营收规模达到304.5亿元,比2016年的218.5亿元增长39%。网络直播已经成为网络文化内容供应、技术创新、商业模式创新的代表,是网络文化市场重要组成部分。
看似增长中的直播行业,其实也迫切需要以技术驱动转型升级。据了解,目前有很多的视频平台仍然处于烧钱阶段;在全民UGC时代,直播平台需要更加智能的内容编辑及内容审核;此外,高人气、高并发,带来巨额的带宽成本,也是行业迫需解决的问题。
在今年“云+未来”峰会上,腾讯云发布了全新的音视频AI产品解决方案—腾讯明眸,不仅将极速高清技术纳入,还在视频业务安全方面加入了人工智能,通过腾讯高效的图像识别及关键词过滤等AI 技术,腾讯明眸可为用户提供视频涉黄、暴恐识别、涉政监控、关键词过滤等智能服务。
截至目前,腾讯视频云已经服务了超过80%的头部直播平台。其中,腾讯音视频AI产品解决方案,不仅为在线视频、泛娱乐直播、短视频等行业有效节省带宽资源,提升观看体验,更帮助企业节省了成本,保障了业务安全。
此前,腾讯云媒体及运营商业务总经理李郁韬表示:“腾讯云将输出能力,以视频所能,为你而+”。相信在腾讯云极速高清技术以及音视频AI解决方案的助力下,视频行业也将加速驶入新的快车道。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。