人工智能 关键字列表
这支来自AWorld团队的多智能体浏览器助手,让网页操作变得像团队协作一样智能

这支来自AWorld团队的多智能体浏览器助手,让网页操作变得像团队协作一样智能

AWorld团队开发的Recon-Act系统采用"侦察-行动"双团队协作模式,通过工具中心的自我进化机制实现智能浏览器操作。系统在VisualWebArena测试中达到36.48%成功率,超越现有自动化方案。其创新性在于将信息收集与任务执行分离,通过对比成功失败案例自动生成专用工具,为未来智能浏览器助手发展提供了新思路。

中科院团队让庞大的3D重建AI"瘦身":压缩75%体积却保持98%精度

中科院团队让庞大的3D重建AI"瘦身":压缩75%体积却保持98%精度

中科院团队提出QuantVGGT技术,首次解决大规模3D重建AI模型的部署难题。通过双重平滑精细量化和噪声过滤多样化采样两项核心技术,成功将12亿参数的VGGT模型压缩75%体积、提升2.5倍速度,同时保持98%原始性能。实验结果显示该方法在相机位置估计和点云地图生成任务上均显著优于现有量化技术,为3D AI技术的产业化普及提供了重要突破。

阿里巴巴提出全新的AI数学学习方法:让机器像人类一样从易到难学数学

阿里巴巴提出全新的AI数学学习方法:让机器像人类一样从易到难学数学

阿里巴巴研究团队提出VCRL方法,让AI像人类一样从易到难学习数学。该方法通过观察AI模型解题时表现的差异程度来判断题目难度,自动选择最适合当前能力水平的训练材料。实验显示,VCRL将AI数学能力提升75%-85%,在奥林匹克数学竞赛等高难度测试中表现尤为突出,为AI教育训练提供了新思路。

Tree-GRPO:让AI智能体学会像人类一样思考——阿里巴巴集团革命性突破提升人工智能决策能力

Tree-GRPO:让AI智能体学会像人类一样思考——阿里巴巴集团革命性突破提升人工智能决策能力

阿里巴巴集团研究团队提出了Tree-GRPO,一种革命性的AI智能体训练方法。该方法通过树状结构让AI探索多种思考路径并进行比较学习,在多跳推理任务中实现了69%的性能提升,同时将训练成本降低至传统方法的四分之一。这项创新为解决AI稀疏监督和高昂训练成本问题提供了新思路。

AI评判官出错了!北大等高校联手揭开LLM评估系统的严重漏洞

AI评判官出错了!北大等高校联手揭开LLM评估系统的严重漏洞

北京大学等高校联合研究发现,当前广泛使用的AI评判系统存在严重的自相矛盾问题,经常出现评分与直接比较结果不一致的情况。研究团队开发了TrustJudge框架,通过分布感知评分和智能聚合技术,将评判不一致性降低了8-10个百分点,同时提升了准确率,为AI系统的可靠评估提供了重要解决方案。

清华大学团队打造CHARM框架:让AI学会生成动漫角色发型,从此告别手工建模的繁琐!

清华大学团队打造CHARM框架:让AI学会生成动漫角色发型,从此告别手工建模的繁琐!

清华大学与腾讯联合开发CHARM框架,首次实现动漫发型的AI自动生成。该系统将复杂发型转化为控制点序列,采用语言化表示方法,让AI像写文章一样逐步生成发型。基于37000个样本的AnimeHair数据集训练,CHARM在几何精度和视觉效果上全面超越现有方法,数据压缩率达98%以上,为游戏、动画等领域提供高效的角色建模解决方案。

微软研究院重磅发现:让AI提前"思考",学习效率飙升3倍!

微软研究院重磅发现:让AI提前"思考",学习效率飙升3倍!

微软研究院发布思维增强预训练技术,通过在AI训练中加入自动生成的思考过程,显著提升学习效率。该方法让AI模型在数学推理任务上正确率大幅提升,数据利用效率提高3倍。技术简单易实现,在多种模型规模上都显示出显著效果,为AI训练开辟新路径。

AI图像生成迎来"闪电时刻":Stability AI让手机也能秒生高清图片

AI图像生成迎来"闪电时刻":Stability AI让手机也能秒生高清图片

Stability AI推出SD3.5-Flash系统,将AI图像生成速度提升18倍,仅需4步即可完成高质量图片生成,并通过量化优化让普通手机也能运行。该技术通过"时间步共享"和"分时间步微调"等创新方法,成功解决了传统AI绘画速度慢、硬件要求高的问题,让AI图像生成技术实现真正的民主化普及。

上海AI实验室重磅发现:让数学推理模型变聪明的秘密武器

上海AI实验室重磅发现:让数学推理模型变聪明的秘密武器

上海人工智能实验室联合多所高校提出ScaleDiff方法,通过智能识别困难数学问题并大规模生成类似难题来训练AI模型。该方法在多个数学竞赛基准上实现显著性能提升,证明了困难样本对提升AI推理能力的重要价值,为构建更强大的数学推理模型提供了高效可行的技术路径。

中科院团队揭示深度学习优化与评估的隐秘矛盾:为什么最好的评分模型不一定带来最佳训练效果

中科院团队揭示深度学习优化与评估的隐秘矛盾:为什么最好的评分模型不一定带来最佳训练效果

中科院微电子研究所团队揭示深度学习中感知优化与质量评估存在意外不对称现象。研究发现评估性能优秀的模型在训练指导中效果有限,对抗性训练具主导作用,传统卷积网络在某些场景仍具优势。这项发现颠覆了"评估性能等同于优化能力"的传统认知,为AI图像处理技术改进提供新方向。

伯克利团队揭秘:AI"思考方式"大比拼,哪种最聪明?

伯克利团队揭秘:AI"思考方式"大比拼,哪种最聪明?

伯克利大学研究团队通过测试15个AI模型在五种推理策略上的表现,发现AI的"思考方式"直接影响答题效果。大模型可灵活运用各种策略,小模型需精准匹配任务特点。数学题适合步骤式推理,开放问题需要搜索式方法,效率优先场景宜选简洁策略。研究揭示了AI推理能力的规模门槛效应。

Anthropic发布入门级Claude Haiku 4.5混合推理模型

Anthropic发布入门级Claude Haiku 4.5混合推理模型

Anthropic发布了面向成本敏感用户的Claude Haiku 4.5大语言模型,定价为每百万输入令牌1美元,输出令牌5美元,比旗舰版Sonnet 4.5便宜三倍。该模型采用混合推理架构,可根据需求调整计算资源,支持多模态输入最多20万令牌。在八项基准测试中,性能仅比Sonnet 4.5低不到10%,但在编程和数学任务上超越了前代Sonnet 4。模型响应速度比Sonnet 4快两倍以上,适用于客服聊天机器人等低延迟应用场景。

微软与Nscale签署价值240亿美元数据中心合同

微软与Nscale签署价值240亿美元数据中心合同

英国初创公司Nscale将为微软建设四个AI数据中心,总计部署约20万个GPU,合同价值高达240亿美元。首个数据中心将于明年在葡萄牙开建,配备1.26万个GPU。德州数据中心规模最大,将部署10.4万个GPU,容量从240兆瓦扩展至1.2吉瓦。所有设施将采用英伟达最新Blackwell Ultra显卡。

谷歌将在印度建造150亿美元AI数据中心枢纽

谷歌将在印度建造150亿美元AI数据中心枢纽

谷歌宣布计划在印度安得拉邦维沙卡帕特南建立AI和数据中心枢纽,这是其在印度的首个AI专用设施。该项目是2026-2030年五年150亿美元投资计划的一部分,将整合大规模计算能力、可再生能源基础设施和扩展的光纤连接。该设施将与AdaniConneX和印度电信公司Airtel合作开发,预计提供"千兆瓦级计算能力"。项目还包括在印度东海岸建设新的海底电缆登陆站,扩大国际连接。

Eightfold联合创始人获3500万美元融资,打造员工数字孪生AI查询平台

Eightfold联合创始人获3500万美元融资,打造员工数字孪生AI查询平台

Eightfold联合创始人推出AI数字孪生初创公司Viven,获得3500万美元种子轮融资。该公司通过为每位员工创建专门的大语言模型数字孪生,让团队成员即使在同事不在线时也能获取关键信息。Viven通过访问员工的内部电子文档创建数字孪生,其他员工可查询获得即时答案。公司采用配对上下文和隐私技术确保信息安全共享。

微软英伟达等巨头400亿美元收购数据中心推高AI泡沫

微软英伟达等巨头400亿美元收购数据中心推高AI泡沫

由黑石、微软、英伟达、xAI和MGX组成的财团以约400亿美元收购Aligned Data Centers,创下数据中心收购纪录。该公司在北美和南美拥有50个数据中心,总容量达5GW。AI基础设施合作伙伴关系计划调动300亿美元股权投资,包含债务融资可达1000亿美元。高盛预测未来两年数据中心容量将激增50%,但警告当前AI投资存在狂热氛围,公司为避免落后而大举借债投资。

Google Veo 3.1视频生成模型升级,图像转视频能力增强

Google Veo 3.1视频生成模型升级,图像转视频能力增强

谷歌发布Veo 3.1 AI视频生成模型更新,显著改进了提示词遵循能力和图像转视频功能。新版本可同时生成视频和音频,并在Flow视频编辑器中新增"帧到视频"功能,用户可上传首尾帧自动生成中间内容。虽然在真实感方面仍不如OpenAI的Sora 2,但谷歌专注于为专业视频工作者提供实用工具的策略值得认可。

人工智能商业落地“大考”,研华交出了一份怎样的产业答卷?

人工智能商业落地“大考”,研华交出了一份怎样的产业答卷?

在2025工博会上,我们看到了积极拥抱人工智能的研华,再次推动产业在边缘AI上迈出重要一步。

Infor深耕亚太市场:云计算与AI驱动制造业数字化转型

Infor深耕亚太市场:云计算与AI驱动制造业数字化转型

企业软件公司Infor将亚太地区作为关键增长引擎,凭借制造业软件专长和AI平台能力吸引新客户。CEO表示亚太制造业基础雄厚,是重要市场。公司专注年收入1亿至50亿美元企业,提供行业特定解决方案。通过Leap项目推动客户向云端迁移,与AWS合作解决数据主权问题。在AI方面,Infor开发智能代理功能,结合流程挖掘技术帮助企业识别低效工作流并实现实时自动化改进。

Anthropic发布Claude Haiku 4.5:三分之一成本实现前沿模型性能

Anthropic发布Claude Haiku 4.5:三分之一成本实现前沿模型性能

Anthropic发布了Claude Haiku 4.5小型AI语言模型,性能接近五个月前的前沿模型Claude Sonnet 4,但成本降低三分之二,速度提升一倍以上。该模型在SWE-bench编程测试中得分73.3%,与Sonnet 4的72.7%相当。API定价为每百万输入令牌1美元,输出令牌5美元,远低于其他大型模型。新模型专为实时低延迟任务设计,可与Sonnet 4.5协同工作处理复杂编程任务。