人工智能 关键字列表
蚂蚁集团突破16M超长上下文:让AI拥有"无限"记忆的技术革命

蚂蚁集团突破16M超长上下文:让AI拥有"无限"记忆的技术革命

蚂蚁集团联合西湖大学发布HSA-UltraLong模型,成功将AI上下文长度扩展至16M标记,相当于32本小说容量。该技术采用分层稀疏注意力机制,模仿人类选择性记忆,在超长文本中保持90%以上检索准确率,为构建具备长期记忆能力的AI系统提供重要突破。

约翰霍普金斯大学突破性研究:让机器拥有"记忆",实现前所未有的3D视频生成控制

约翰霍普金斯大学突破性研究:让机器拥有"记忆",实现前所未有的3D视频生成控制

约翰霍普金斯大学研究团队开发出Captain Safari视频生成系统,首次实现了在复杂3D轨迹下的长期视觉一致性。该系统通过创新的"世界记忆"机制,能根据摄像机位置智能检索相关场景信息,生成高质量的第一人称视角视频。同时构建了OpenSafari数据集,包含真实无人机飞行视频用于验证。实验显示该技术在视频质量、3D一致性和轨迹跟踪方面均显著优于现有方法,为虚拟现实、影视制作和游戏开发等领域带来重要突破。

语言模型自我改进能力大揭秘:为什么AI在面对"再想想"时表现如此不堪

语言模型自我改进能力大揭秘:为什么AI在面对"再想想"时表现如此不堪

这项研究首次系统评估了语言模型的自我改进能力,发现即使是最先进的AI模型在无指导的自我改进中表现也很差,最好的模型得分仅31.3%。但当提供明确反馈时,大型模型可达90%以上的优秀表现。研究揭示AI的核心问题是无法准确识别需要改进的地方,而非缺乏改进能力本身。

英伟达发布自动驾驶研究新开源AI模型与工具

英伟达发布自动驾驶研究新开源AI模型与工具

英伟达宣布推出Alpamayo-R1开源推理视觉语言模型,专为自动驾驶研究设计,这是首个专注于自动驾驶的视觉语言行动模型。该模型基于英伟达Cosmos Reason模型构建,能够处理文本和图像,让车辆"看见"周围环境并做出决策。英伟达还发布了Cosmos Cookbook开发指南,帮助开发者训练和使用模型。这些技术对实现L4级自动驾驶至关重要。

波兰小创企如何成为数十亿美元AI语音巨头

波兰小创企如何成为数十亿美元AI语音巨头

波兰AI语音公司ElevenLabs由两位30岁创始人Staniszewski和Dabkowski创立,其AI语音技术能够生成极其逼真的人声。公司在四年内从零发展到估值66亿美元,两位创始人均成为亿万富翁。该公司年收入1.93亿美元,净利润1.16亿美元,服务客户包括思科、Epic Games等知名企业。尽管面临深度伪造等技术滥用风险,ElevenLabs仍在与谷歌、微软等科技巨头竞争AI语音市场主导地位。

英伟达20亿美元投资新思科技强化芯片设计生态控制力

英伟达20亿美元投资新思科技强化芯片设计生态控制力

英伟达向芯片设计软件公司新思科技投资20亿美元,以414.79美元每股价格购买股份,双方将展开多年合作。此次投资旨在将英伟达的AI硬件和计算能力整合到新思科技的电子设计自动化软件中,帮助其平台从CPU计算向GPU转型,加速芯片设计流程。该交易增强了英伟达对广泛使用的设计工具的影响力。

联想HPC与AI业务盈利之路充满挑战

联想HPC与AI业务盈利之路充满挑战

联想第二财季营收204.5亿美元,同比增长14.6%。AI相关收入占总营收30%,达61.4亿美元,较去年同期翻倍增长。然而基础设施解决方案集团(ISG)尽管收入增长23.7%至40.9亿美元,仍亏损3200万美元。云服务商业务虽增长21%但利润微薄,企业市场表现更佳。十年来ISG累计销售超840亿美元却总计亏损19.5亿美元,反映出AI和HPC市场高需求但低盈利的困境。

HPE升级AI云产品线,集成更多英伟达技术能力

HPE升级AI云产品线,集成更多英伟达技术能力

HPE正在升级其私有云AI堆栈,集成英伟达技术并准备在法国建立AI工厂实验室供客户测试工作负载。最新的RTX PRO 6000 Blackwell服务器版GPU将在所有AI私有云平台上可用,同时支持GPU分片和虚拟化以优化利用率。HPE还推出数据中心运维代理简化管理,并整合Juniper网络技术。存储方面推出Alletra Storage MP X10000数据智能节点,内置AI数据预处理能力。

AWS推出生成式AI功能助力亚马逊Connect抢夺市场份额

AWS推出生成式AI功能助力亚马逊Connect抢夺市场份额

AWS宣布Amazon Connect获得重大升级,新增29项智能AI功能,旨在提供超个性化的自主客户体验。该平台年化收入已突破10亿美元,AWS希望借助智能AI从被动支持转向主动参与,用推理型自主系统取代脚本化聊天机器人。新功能包括可解析多意图查询、跨交互保持记忆、实时检索企业数据的AI代理,以及Nova Sonic语音技术支持30多种语言。AWS强调人机协作模式,通过全面的可观测性套件确保AI透明度和可信度。

NVIDIA推出OmniVinci:让AI同时拥有眼睛、耳朵和大脑的突破性进展

NVIDIA推出OmniVinci:让AI同时拥有眼睛、耳朵和大脑的突破性进展

NVIDIA研究团队开发的OmniVinci是一个突破性的多模态AI模型,能够同时理解视觉、听觉和文本信息。该模型仅使用0.2万亿训练样本就超越了使用1.2万亿样本的现有模型,在多模态理解测试中领先19.05分。OmniVinci采用三项核心技术实现感官信息协同,并在机器人导航、医疗诊断、体育分析等多个实际应用场景中展现出专业级能力,代表着AI向真正智能化发展的重要进步。

Salesforce发布BLIP3o-NEXT:图像生成与编辑的新突破

Salesforce发布BLIP3o-NEXT:图像生成与编辑的新突破

Salesforce研究团队发布BLIP3o-NEXT,这是一个创新的图像生成模型,采用自回归+扩散的双重架构设计。该模型首次成功将强化学习应用于图像生成,在多物体组合和文字渲染方面表现优异。尽管只有30亿参数,但在GenEval测试中获得0.91高分,超越多个大型竞争对手。研究团队承诺完全开源所有技术细节。

清华大学发布Imaginarium:让AI从一句话瞬间造出3D场景,比专业设计师快100倍

清华大学发布Imaginarium:让AI从一句话瞬间造出3D场景,比专业设计师快100倍

清华大学联合腾讯等机构开发出Imaginarium系统,能够仅凭文字描述在4分钟内生成专业级3D场景布局。该系统通过视觉引导方法,先生成2D设计图再转换为3D场景,包含2037个高质量3D模型资产库。测试显示其生成场景质量显著优于现有方法,主要家具摆放准确率超90%,可广泛应用于游戏开发、建筑设计和影视制作等领域。

中科院与腾讯AI实验室的Web智能体重大突破:让计算机像人类一样深度研究互联网信息

中科院与腾讯AI实验室的Web智能体重大突破:让计算机像人类一样深度研究互联网信息

香港中文大学和腾讯AI实验室联合发布突破性研究,提出"探索进化"方法训练网络智能体。该方法让AI不仅能搜索信息,还能像研究员一样深度分析整合网络数据。研究构建了包含近万个复杂问题的WebAggregatorQA数据集,训练出的WebAggregator模型在多项测试中超越GPT-4表现。这项技术有望彻底改变人机信息交互方式,在学术研究、商业分析等领域具有巨大应用潜力。

威斯康星大学团队构建AI研究评测"实战场":让AI助手接受真实世界的深度研究大考

威斯康星大学团队构建AI研究评测"实战场":让AI助手接受真实世界的深度研究大考

威斯康星大学团队构建了首个真实世界AI深度研究能力评测平台LiveResearchBench,包含100个跨领域研究任务和DeepEval六维评估体系。对17个先进AI系统的测试显示,当前AI更像"信息收集员"而非"深度研究者",在分析洞察、引用准确性和格式规范方面仍有明显不足,为AI助手能力边界提供了重要认识。

德州农工大学发现:大模型也会得"脑残症"?训练数据太垃圾竟然让AI变"笨"!

德州农工大学发现:大模型也会得"脑残症"?训练数据太垃圾竟然让AI变"笨"!

德州农工大学等机构研究团队发现,大型语言模型在接受低质量网络数据训练后会出现类似人类"脑残症"的认知衰退现象。实验显示,垃圾数据训练会导致AI推理能力下降、长文本理解变差、安全性降低,甚至出现"黑暗人格"特征。这种认知损害具有剂量依赖性且难以逆转,为AI数据管理和安全发展提供重要警示。

加州大学圣克鲁兹分校团队首次破解AI性能预测难题:让上下文与计算力"双剑合璧"

加州大学圣克鲁兹分校团队首次破解AI性能预测难题:让上下文与计算力"双剑合璧"

加州大学圣克鲁兹分校研究团队开发了首个能够同时考虑计算资源和上下文信息的AI性能预测框架。通过在65500个测试实例上验证,该框架能够准确预测模型在不同条件下的表现,预测误差低至0.7%-3.7%,并能跨越三个数量级的计算规模进行可靠外推,为AI开发提供科学的资源分配指导。

港大团队打造首个牙科AI医生:看X光片、识别病变、制定治疗方案样样精通

港大团队打造首个牙科AI医生:看X光片、识别病变、制定治疗方案样样精通

香港大学团队开发出首个牙科专用AI医生OralGPT-Omni,能够像真正的牙医一样阅读八种不同类型的牙科影像,进行诊断并详细解释诊断思路。该系统在测试中表现优异,远超现有AI模型,有望缓解全球牙科医疗资源短缺问题。

NVIDIA等顶级研究机构突破性成果:AI生图模型测试时还能大幅提升,流图轨迹倾斜技术让图像生成随心所欲

NVIDIA等顶级研究机构突破性成果:AI生图模型测试时还能大幅提升,流图轨迹倾斜技术让图像生成随心所欲

NVIDIA等顶级机构联合开发的流图轨迹倾斜技术,突破性地解决了AI图像生成控制难题。该技术通过"流图"预测最终结果,实现生成过程中的精确实时调整,无需重训练即可大幅提升生成图像的准确性。实验显示在时钟准确度等测试中性能从60%提升至90%以上,并成功集成视觉语言模型实现自然语言控制,为AI创作开启新时代。

清华大学提出突破性AI推理技术:让大语言模型思考更快更高效的全新方法

清华大学提出突破性AI推理技术:让大语言模型思考更快更高效的全新方法

清华大学等机构联合提出"聚焦思维链"技术,通过将信息提取与推理过程分离,让大语言模型先整理问题关键信息再专注推理,类似厨师备料后烹饪的过程。该方法在保持推理准确性的同时,将计算量减少2-3倍,显著提升AI推理效率,且无需重新训练模型即可应用,为AI服务降本增效提供了新思路。

牛津大学教你AI也能懂美丑:让机器学会"看出"照片的情感温度

牛津大学教你AI也能懂美丑:让机器学会"看出"照片的情感温度

这项由牛津大学等多所知名院校合作完成的研究,首次系统性地解决了AI在图像情感认知方面的缺陷。研究团队开发了CogIP-Bench测试平台,发现现有AI模型在美感、幽默、情感和记忆度四个维度上与人类感知存在显著差距。通过创新的训练方法,他们成功提升了AI的情感认知能力,不仅改善了主观判断的准确性,还在图像生成应用中实现了22.8%的质量提升。这项突破为AI在创意产业的深度应用开辟了新路径。