至顶网CIO与CTO频道 11月07日 北京消息:互联网流量正以平均每年26%的速度增长。2017年以来,视频流量在整个互联网流量的占比一直处于高位。从2017年的75%,到现在的约80%, 到2022年预计超过82%的互联网流量将来自于视频或者包含视频的应用。
2019年,每月约200EB的互联网流量里80%来自于视频,到2022年,这个数字将会翻倍,这个巨大的数字所代表的商业价值不言而喻。
腾讯多媒体实验室专注于多媒体技术领域的前沿技术探索、研发、应用和落地。积极贡献国际国内行业标准制定,包括多媒体数据压缩、网络传输协议、多媒体系统和开源平台等。
腾讯多媒体实验室打造三大核心能力,第一、音视频编解码、网络传输和实时通信;第二、多媒体内容处理、分析、理解和质量评估;第三、沉浸式媒体系统设计和端到端解决方案。腾讯于2018年开始参与VVC标准制定,迄今为止已经向标准组织提交超过250个技术提案,其中约70个技术提案已被标准采纳。
编解码技术是数字时代视频应用不可缺少的环节,视频编解码的效率直接影响着一个产品或者一套解决方案的效率、成本、品质甚至是成败。
尽管压缩效率非常重要,但并不是所有人都在使用压缩效率最高的编解码格式,因为不同的应用场景对视频编解码器的需求侧重有所不同。腾讯杰出科学家、腾讯多媒体实验室总经理刘杉表示,在质量、延迟、带宽、成本之间寻找一个最优平衡点是我们努力的方向和目标。
腾讯杰出科学家、腾讯多媒体实验室总经理刘杉
同时AI也已经渗透到多媒体数据压缩、数据处理、数据传输整个链路中,例如数据处理中的,视频画面增强、降噪、锐化、超分、倍增等,以及数据压缩和传输的效率提升。
云游戏是以云计算为基础的游戏方式,在云游戏的运行模式下,所有游戏都在服务器端运行,并将渲染完毕后的游戏画面压缩后通过网络传送给用户。在客户端用户的游戏设备不需要任何高端处理器和显卡,只需要视频解压缩能力。
云游戏商业化面临一个挑战就是高成本,刘杉说道,其中最大的成本来自于带宽 34%,其次是GPU 27%。视频编解码器的优化将有助于大大降低云游戏的带宽成本,推动云游戏商业化。
到了5G时代,让更多应用触手可及,使得万物互联成为可能,在5G的影响下,媒体内容的生产、获取和传播方式都在发生变化。
“4K、8K、VR、AR、MR、点云在过去因为受限于网络带宽的应用,在5G的推动下可能会迎来突破。”刘杉说道,5G的低延迟特性还将触及医疗和其他一些倚赖高速连接和互动的领域,例如远程手术和自动驾驶。
互动沉浸式媒体也将在5G时代迎来爆发,其应用领域非常广泛,包括文旅、教育、影视、泛娱乐、安全、零售等很多垂直行业。
腾讯多媒体实验室也正围绕着腾讯的业务并在不同垂直行业进行应用。例如腾讯多媒体实验室与腾讯云合作的“一部手机游云南”项目,其提供了裸眼VR全景技术,结合白沙细乐、热美磋等多项云南非物质文化遗产内容,为云南旅游景点提供精细化导游导览方案。通过此项技术,游客可跨越时空限制,用一部手机即可随时随地观看演出,身临其境感受当地文化魅力。
多媒体实验室还联合腾讯视频和腾讯云推出AI智能云剪辑,在最短时间内将十一阅兵中精彩片段进行拆分和剪辑。腾讯多媒体实验室和腾讯云正在研发的智能场记解决方案,运用深度学习技术结合信号处理理论,对视频内容进行高级语义理解,并已经在体育赛事等场景取得阶段性成果。
好文章,需要你的鼓励
腾讯今日开源混元MT系列语言模型,专门针对翻译任务进行优化。该系列包含四个模型,其中两个旗舰模型均拥有70亿参数。腾讯使用四个不同数据集进行初始训练,并采用强化学习进行优化。在WMT25基准测试中,混元MT在31个语言对中的30个表现优于谷歌翻译,某些情况下得分高出65%,同时也超越了GPT-4.1和Claude 4 Sonnet等模型。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
今年是Frontiers Health十周年。在pharmaphorum播客的Frontiers Health限定系列中,网络编辑Nicole Raleigh采访了Startup Health总裁兼联合创始人Unity Stoakes。Stoakes在科技、科学和设计交汇领域深耕30多年,致力于变革全球健康。他认为,Frontiers Health通过精心选择的空间促进有意义的网络建设,利用网络效应推进创新力量,让企业家共同构建并带来改变,从而有益地影响全球人类福祉。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。