AI的热潮一浪接一浪,迄今为止没有丝毫退却的迹象,最近更是扩展到了视频领域。
今年2月,OpenAI发布的Sora让众多用户大为惊叹,它能够根据文本生成超现实的视频,预示着未来每个人都有可能颠覆传统的好莱坞影视制作模式。
一些人认为,Sora的能力已经到了令人担忧的地步,因为人工智能生成的视频已经足以让人难以辨认真伪。Sora可以生成涉及多个角色、特定动作以及精确主题和背景细节的复杂场景。
影视行业的未来并非被颠覆,而可能是彻底转型。AI生成视频的一个巨大优势是,在不依赖实景拍摄的情况下,可以迅速创造出现实中无法实现的内容。
除了Sora,Runway和Pika等AI视频工具也颇受关注。中国的一些企业,例如生数科技与清华大学合作,最近发布的Vidu实现了16秒长视频的生成,这也是一个重要的突破。
在本期数字化转型方略中,我们深入探讨了几款市场上的热门AI视频产品,虽然目前看来AI视频在实际使用中仍面临各种挑战,但还是展示了巨大的潜力。
总的来说,AI视频生成技术正以前所未有的速度重塑视频产业,不仅极大地丰富了内容创作者的工具箱,也促进了视频娱乐和教育行业的创新。
相信随着技术的进一步完善和应用领域的扩展,AI在视频生成领域的作用将变得更加突出和关键。
这将开启视频内容创作和分发的新纪元。
《数字化转型方略》2024年第4期:http://www.zhiding.cn/dxinsight/2404
好文章,需要你的鼓励
腾讯今日开源混元MT系列语言模型,专门针对翻译任务进行优化。该系列包含四个模型,其中两个旗舰模型均拥有70亿参数。腾讯使用四个不同数据集进行初始训练,并采用强化学习进行优化。在WMT25基准测试中,混元MT在31个语言对中的30个表现优于谷歌翻译,某些情况下得分高出65%,同时也超越了GPT-4.1和Claude 4 Sonnet等模型。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
今年是Frontiers Health十周年。在pharmaphorum播客的Frontiers Health限定系列中,网络编辑Nicole Raleigh采访了Startup Health总裁兼联合创始人Unity Stoakes。Stoakes在科技、科学和设计交汇领域深耕30多年,致力于变革全球健康。他认为,Frontiers Health通过精心选择的空间促进有意义的网络建设,利用网络效应推进创新力量,让企业家共同构建并带来改变,从而有益地影响全球人类福祉。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。