“你好,我是张雨霏,很高兴与你交流!”
在如火如荼的巴黎奥运会,AI“张雨霏”和AI“邹敬园”现身法国巴黎所罗门罗斯柴尔德公馆的“中国之家”。
这是两位1:1高拟真度还原的运动员虚拟数字人,它们既可以回答奥林匹克运动的起源问题,还可以切换中文、英文、法语,与来自世界各地的运动员和观众交流互动。
结合语音合成、识别、语义理解、唇形预测、图像处理等多语种智能语音和大模型技术,让它们实现了信息处理能力、知识理解能力、跨语言自由对话能力。
虚拟数字人的兴起,最早源于虚拟偶像。在元宇宙火爆之后,虚拟数字人又有了新的应用场景,到了现在又有了像虚拟主播、数字员工等用途。尤其是最近几年,在生成式AI技术的带动下,虚拟数字人的交互能力、内容生成能力及智能化水平得到了极大的提升。
中国传媒大学文化产业管理学院执行院长张洪生曾表示,数字人的发展经历了从真人驱动到程序驱动,再到如今AI驱动三种主要形式。
随着虚拟数字人的不断发展,市场体量也在逐渐增大,iiMedia Research(艾媒咨询)发布的《2023年中国AI数字人产业研究报告》显示,2022年中国AI数字人核心市场规模为120.8亿元,同比增长94.2%,预计2025年将达480.6亿元。
中国传媒大学发布的《中国虚拟数字人影响力指数报告》显示,2023年度“数字人、虚拟人”相关企业达99.3万余家,其中,2023年1月-12月新增相关企业41.7万余家,与2022年同比上涨超四成。
生成式AI一方面可以赋能虚拟数字人的制作和生成,一方面可以让虚拟数字人实现一些功能进行场景落地。
一位业内人士称,生成式AI确实提升了整体的生产效率,但是这种效率提升并不是线性的,而是点状在某些环节实现效率提升,另外模型还需进行训练,嫁接专有知识库才能让虚拟数字人提供更具个性化的情绪价值。
在生成式AI加持下的虚拟数字人,现已在传媒、文旅、教育、金融、医疗、体育等领域广泛应用。像虚拟主播可以实现全年无休,大幅降低直播成本,简化运营流程;虚拟数字人员工能够担任客服、导游、助手等角色,不仅提高了整体工作效率,更实现了智能化的服务体验。
生成式AI已经为虚拟数字人带来了一些变化,虽未达到颠覆行业的程度,但其广泛应用已展现出可见的潜力,未来虚拟数字人也将成为连接AI和现实世界的一座重要桥梁。
《数字化转型方略》2024年第7期:http://www.zhiding.cn/dxinsight/2407
好文章,需要你的鼓励
这项研究提出了R1-Searcher++框架,通过两阶段训练策略使大语言模型能像人类一样灵活利用内部知识和外部信息。该方法创新性地采用强化学习激励模型优先使用内部知识,并引入记忆机制将检索到的信息转化为内部知识,实现动态知识获取。实验表明,R1-Searcher++不仅在多步问答任务上表现优异,还大幅减少了检索次数,显著提高了推理效率。
这项研究提出了AutoRefine,一种革新性的强化学习框架,为大语言模型引入了"边思考边搜索和完善"的全新范式。与传统方法不同,AutoRefine在连续搜索调用之间添加知识完善步骤,让模型能够有效过滤和组织信息。通过结合答案正确性和检索质量双重奖励,该方法在七项问答基准测试中平均提升6.9%的准确率,特别在复杂多跳推理场景中表现突出,解决了现有检索增强推理的核心局限性。
这项研究揭示了一种新型网络安全威胁:利用普通网络广告攻击AI网页代理。中科院研究团队开发的AdInject攻击无需特殊权限,仅通过精心设计的广告内容就能误导AI代理点击恶意链接,成功率高达90%以上。研究使用严格的黑盒模型,更符合现实场景,暴露了当前AI代理面临的实际安全漏洞。实验还表明,即使添加专门的防御提示,这类攻击仍能成功率超过50%,凸显了设计更强大防御机制的紧迫性。
东北大学与快手科技联合研发的UNITE系统为多模态信息检索带来突破性进展。这项发表于2025年5月的研究首次系统分析了模态特定数据如何影响检索性能,并提出创新的模态感知掩码对比学习技术,有效解决不同模态间的竞争关系。UNITE能同时处理文本、图像、视频及其组合,在40多项测试中超越现有方法,即使与参数规模更大的模型相比也表现出色。研究发现视频-文本对在通用检索中表现优异,而文本-文本和文本-图像对对指令遵循任务至关重要,为未来多模态系统研究提供了宝贵指南。