人工智能 关键字列表
大语言模型终于学会了边查资料边思考:Search-R1让AI像人类一样搜索推理

大语言模型终于学会了边查资料边思考:Search-R1让AI像人类一样搜索推理

伊利诺伊大学研究团队开发的Search-R1系统让AI学会了像人类一样边思考边搜索的能力。通过强化学习,AI能够主动决定何时搜索外部信息、如何整合搜索结果进行推理。该系统在七个问答数据集上平均提升20-24%的准确率,代表了从封闭知识系统向开放学习系统的重要转变,为构建更智能的AI助手奠定了基础。

斯坦福和伯克利联手出招:AI能看出你动作哪里不标准了!

斯坦福和伯克利联手出招:AI能看出你动作哪里不标准了!

斯坦福和伯克利研究团队推出VidDiff技术,让AI学会像专业教练一样精准识别动作差异。该技术通过三步走方法解决视频动作比较难题,构建了包含549对视频的大型数据集VidDiffBench。虽然当前AI模型准确率有限,但已展现在健身指导、医学培训、体育分析等领域的应用潜力。研究为AI理解细微动作差异开辟新方向,有望让人人享有智能化的动作指导。

AI人体运动生成技术新突破:澳洲国立大学团队让机器从零开始学会"随音起舞"与"看文生动"

AI人体运动生成技术新突破:澳洲国立大学团队让机器从零开始学会"随音起舞"与"看文生动"

澳洲国立大学团队开发的Motion Anything系统实现了AI动作生成的重大突破,能够根据文字、音乐或两者组合自动生成逼真的人体动作。该系统采用创新的注意力引导遮罩策略和双重变换器架构,在多个基准测试中显著超越现有方法,并创建了包含2153组数据的TMD数据集。这项技术为影视制作、游戏开发和虚拟现实等领域带来新的可能性。

香港科技大学团队揭秘:如何让AI从零开始学会深度思考

香港科技大学团队揭秘:如何让AI从零开始学会深度思考

香港科技大学团队发现AI可通过"零RL训练"直接学会深度思考,无需预先教授基础知识。研究测试了10个不同规模AI模型,发现它们能在数学推理训练中自发展现验证、反思等高级认知行为,部分模型出现"顿悟时刻"。研究还发现预训练反而会限制AI探索能力,最直接的学习方式可能最有效。该成果为AI教育提供了新思路,强调思维能力比知识记忆更重要。

阿里巴巴推出LHM:让单张照片瞬间变身可动3D人物的神奇技术

阿里巴巴推出LHM:让单张照片瞬间变身可动3D人物的神奇技术

阿里巴巴通义实验室开发的LHM系统能够在几秒钟内将单张人物照片转换成可自由运动的3D虚拟人物。该技术采用多模态变换器架构,结合3D高斯分布表示和自监督学习策略,在重建质量和生成速度上都显著优于现有方法,为虚拟现实、游戏制作和数字内容创作提供了新的可能性。

解锁AI视频新时代:微软研究院的Sora模型如何让视频生成技术实现质的飞跃

解锁AI视频新时代:微软研究院的Sora模型如何让视频生成技术实现质的飞跃

微软研究院最新推出的AI视频生成模型Sora引发科技界轰动。这款"世界模拟器"能根据文本描述生成长达一分钟的高质量视频,远超以往AI视频技术的几秒钟限制。Sora采用扩散模型和"时空补丁"方法,能创建角色一致、动作流畅、符合物理规律的复杂视频场景。它不仅能处理多角色互动、复杂动作和相机运动,还能从静态图像生成动态视频。尽管在处理某些物理现象和因果关系上仍有局限,但Sora已展示出在电影制作、广告营销、教育和个人创作等领域的巨大应用潜力,同时也引发了对深度伪造、版权和隐私等伦理问题的思考。

企业级智能体AI框架Agntcy正式加入Linux基金会

企业级智能体AI框架Agntcy正式加入Linux基金会

智能体AI有望通过大幅改善工作流自动化来推动企业转型。Agntcy是2025年3月成立的开源组织,致力于构建"智能体互联网"框架。该框架由思科Outshift孵化部门创立,专注于智能体协调编排和身份访问管理。7月29日Linux基金会正式接纳该联盟,为框架提供更稳固的行业基础,新增戴尔、谷歌云、甲骨文云和红帽等重要成员。

飞利浦AI战略:通过智能化实现大规模优质医疗服务

飞利浦AI战略:通过智能化实现大规模优质医疗服务

飞利浦首席创新战略官谢兹·帕托维分享了公司的AI战略。飞利浦采用客户驱动的创新模式,将80%研发资源嵌入业务单元,20%专注行业突破。公司AI战略围绕自动化、增强和敏捷三个维度展开,旨在2030年惠及25亿人。通过SmartSpeed AI等创新,飞利浦在保持人机协作的同时,利用生成式AI提升内部效率,推动医疗行业进入智能化新时代。

Writer发布企业级自主AI"超级智能体"

Writer发布企业级自主AI"超级智能体"

生成式AI初创公司Writer发布Action Agent,这是一款集成工具使用、知识工作和深度研究能力的强大AI智能体,具备企业级控制和透明度。该智能体由Palmyra X5大语言模型驱动,能够执行需要问题解决、复杂推理和多工具使用的大量任务。Action Agent具备自我纠错能力,可处理网页交互、数据分析、文件系统操作和代码编写等多种任务,拥有600多个工具连接器,支持80个企业和第三方数据平台。

Matrice.ai与Voltage Park合作,加速无代码计算机视觉开发

Matrice.ai与Voltage Park合作,加速无代码计算机视觉开发

计算机视觉初创公司Matrice.ai宣布完成种子轮战略扩展融资,云基础设施提供商Voltage Park领投。该公司开发的无代码平台可创建人工智能视觉模型,开发速度比传统方法快40%,成本降低80%。该平台采用数据驱动方法,提供自动化数据集标注工具,无需编程背景即可使用。目前已为数百个企业摄像头提供服务,客户遍及能源、零售和公共部门。

Photoshop推出强大AI工具助力内容创作者

Photoshop推出强大AI工具助力内容创作者

Adobe发布Photoshop全新AI工具套件,包括Harmonize智能融合功能、生成式放大工具和改进的移除工具。Harmonize可自动调整色彩、光线和阴影,实现无缝合成;生成式放大可将图像提升至800万像素而不损失清晰度;改进的移除工具能精准清理图像并生成逼真填充内容。新功能还包括Projects项目管理和双Firefly模型选择器,支持桌面、网页和移动端使用。

Qdrant推出轻量级边缘设备向量数据库

Qdrant推出轻量级边缘设备向量数据库

开源向量数据库公司Qdrant开发了一款轻量级向量数据库,专为机器人、自助终端、移动设备和其他嵌入式系统本地运行而设计。Qdrant Edge支持开发者在边缘设备上本地运行混合和多模态搜索,无需连接服务器进程。该产品提供生命周期完全控制、内存使用优化和进程内执行功能,支持高级过滤和实时代理工作负载兼容性。应用场景包括机器人导航、智能零售终端和隐私优先的移动助手等。

人工智能学会了自我纠错:当AI发现自己被"忽悠"时的反击策略

人工智能学会了自我纠错:当AI发现自己被"忽悠"时的反击策略

西班牙研究团队提出了一种创新的AI自我纠错方法SSC,让人工智能学会识别和修正规则中的漏洞。当AI发现自己在钻空子获得高分时,它会反思规则的合理性并主动改进。实验显示这种方法将AI的"钻空子"行为从50-70%降低到3%以下,同时提升了回答质量。这项技术有望让AI从被动执行指令转变为能够质疑和改进指令的智能协作伙伴。

清华大学团队重新定义视频搜索:当几何学遇上人工智能,让机器像人类一样"理解"视频层次

清华大学团队重新定义视频搜索:当几何学遇上人工智能,让机器像人类一样"理解"视频层次

清华大学团队在2025年发表突破性研究,首次将双曲几何学引入视频检索领域,解决了传统系统在处理"部分相关视频检索"时的层次理解问题。通过HLFormer框架的双空间并行处理和创新的部分序保持损失机制,在三个权威数据集上实现显著性能提升,为视频搜索技术开辟了全新发展方向。

西安交通大学团队新突破:让AI推理快一倍准一倍的"动量不确定性"方法

西安交通大学团队新突破:让AI推理快一倍准一倍的"动量不确定性"方法

西安交通大学等机构研究团队提出MUR方法,通过"动量不确定性"概念让AI推理系统学会轻重缓急,在节省50%以上计算资源的同时提升0.62-3.37%的准确率。该方法从物理学动量概念获得灵感,能够识别关键推理步骤并选择性地分配计算资源,解决了AI推理中的"过度思考"问题,为提高AI系统效率开辟了新路径。

重塑AI未来:TechCrunch Disrupt 2025 AI舞台阵容公布

重塑AI未来:TechCrunch Disrupt 2025 AI舞台阵容公布

TechCrunch Disrupt 2025 AI舞台将汇聚塑造科技未来的领军人物,顶尖风投将揭示在快速变化的AI领域获得融资的关键。来自Apptronik、ElevenLabs、Hugging Face、Runway等创新企业的领导者将分享前沿洞见,探讨AI如何重塑创意过程、改变物理世界、变革国防安全和重新定义人际关系。10月27-29日,五大主题舞台将在旧金山呈现科技创新的未来图景。

英超联赛利用AI技术变革球迷体验

英超联赛利用AI技术变革球迷体验

英超联赛与微软达成五年战略合作伙伴关系,推出AI驱动的Premier League Companion服务,为全球球迷提供个性化体验。该服务利用Azure OpenAI技术,整合30多个赛季的统计数据、30万篇文章和9000个视频,帮助球迷发现和了解更多内容。未来还将为Fantasy Premier League引入个人助理经理功能,并通过Azure AI优化比赛直播体验和赛后分析。

Runway推出Aleph模型,承诺下一代AI视频编辑体验

Runway推出Aleph模型,承诺下一代AI视频编辑体验

Runway推出最新AI模型Aleph,旨在重新定义视频创作与编辑方式。基于通用世界模型和模拟模型研究,Aleph提供对话式AI工具,能即时对现有或生成的视频进行复杂编辑。用户只需简单提示,即可删除物体、更换背景或重塑整个场景。与以往专注于文本生成视频的模型不同,Aleph强调"流畅编辑",确保场景、角色和环境的一致性,无需逐帧修复缺陷,为电影制作者和广告商提供更高效的工作流程。

TeleAI团队重磅发布TeleChat2、TeleChat2.5和T1:三款大语言模型的全面升级之路

TeleAI团队重磅发布TeleChat2、TeleChat2.5和T1:三款大语言模型的全面升级之路

TeleAI团队发布TeleChat2、TeleChat2.5和T1三款大语言模型的技术报告,详述了从10万亿tokens预训练到强化学习优化的完整开发过程。T1-115B在数学推理上超越OpenAI o1-mini,展现了国产AI模型的技术突破。研究采用4D并行训练策略,在8000个华为昇腾NPU上完成训练,并全面开源以促进AI技术发展。

华为科技的AI新突破:电脑也能像人一样"看脸识年龄"!COMSATS大学团队让广告投放更精准

华为科技的AI新突破:电脑也能像人一样"看脸识年龄"!COMSATS大学团队让广告投放更精准

巴基斯坦拉合尔COMSATS大学研究团队开发出同时识别人脸年龄和性别的AI系统,专门针对精准广告投放优化。该系统性别识别准确率达95%,年龄估算平均误差仅5.77年。与传统分别处理两项任务的方法不同,研究采用统一框架学习共享特征表示,显著提升了整体性能。系统基于20000张人脸图像训练,为商业广告和智能监控等领域提供了新的技术解决方案。