人工智能 关键字列表
机器人终于学会用眼睛、语言和行动思考了!斯坦福等顶级院校联合破解embodied AI密码

机器人终于学会用眼睛、语言和行动思考了!斯坦福等顶级院校联合破解embodied AI密码

这项由斯坦福等顶级院校联合完成的研究系统解析了VLA(视觉-语言-行动)模型的发展现状与挑战。VLA技术让机器人同时具备视觉感知、语言理解和行动执行能力,正在推动embodied AI革命。研究识别出五大核心挑战:多模态对齐、指令执行、泛化适应、安全可靠性和数据标准化,并提出了从分散技术走向统一智能体的发展路径,预示着人机协作新时代的到来。

人工智能推理新突破:伊利诺伊大学团队发现AI思维的隐藏规律

人工智能推理新突破:伊利诺伊大学团队发现AI思维的隐藏规律

伊利诺伊大学研究团队首次提出"推理定律"框架,系统解释AI模型推理行为中的基本规律。研究发现当前大型推理模型普遍存在"思考时间"分配不当的问题,并开发出SFT-Compo训练方法加以改善。该方法通过强化AI模型对问题复杂度的感知能力,显著提升了推理性能,为下一代更智能AI系统的开发提供了重要理论基础。

字节跳动探索AI定理证明新高峰:让计算机像学霸一样解决本科数学难题

字节跳动探索AI定理证明新高峰:让计算机像学霸一样解决本科数学难题

字节跳动开发的Seed-Prover 1.5是一个突破性的AI数学定理证明系统,通过强化学习和智能体方法实现了卓越的数学推理能力。系统在普特南数学竞赛等测试中表现出色,成功解决88%的本科水平问题和80%的研究生水平问题。其创新在于三个专业AI模块的协作以及在自然语言与形式化证明之间的智能转换,为AI数学推理能力树立了新的标杆。

机器人如何学会像人类一样观察世界:香港科技大学团队突破传统机器学习边界

机器人如何学会像人类一样观察世界:香港科技大学团队突破传统机器学习边界

香港科技大学团队开发出PhysBrain模型,通过创新的视频翻译技术将300万条人类第一人称视频转化为机器人可理解的训练数据。该模型在第一人称理解和机器人控制任务中均取得突破性进展,平均成功率达53.9%,为解决机器人训练数据稀缺问题提供了全新解决方案,标志着从人类视角到机器智能转换的重要突破。

香港大学联合Adobe研究突破:让AI既能看懂图片又能生成美图的"万能大脑"

香港大学联合Adobe研究突破:让AI既能看懂图片又能生成美图的"万能大脑"

香港大学联合Adobe研究院提出PS-VAE技术,成功解决了AI无法同时具备图像理解和生成能力的难题。通过创新的两阶段训练策略,让AI既能准确理解图片语义,又能生成高质量图像,在图像编辑任务上性能提升近4倍,为统一视觉AI系统开辟新路径,在数字创作、教育、电商等领域具有广阔应用前景。

华中科技大学与马里兰大学联合发现:AI评判员可能比想象中更不靠谱

华中科技大学与马里兰大学联合发现:AI评判员可能比想象中更不靠谱

华中科技大学与马里兰大学研究团队开发出Sage评估框架,首次无需人工标注即可评估AI评判员可靠性。研究发现即使最先进的AI模型在评判任务中也存在严重不一致问题,近四分之一困难情况下无法保持稳定偏好。团队提出明确评判标准和专门微调等改进方法,为构建更可靠AI评估体系提供重要工具。

清华大学团队破解图像生成的"速度魔咒":让AI画图快三倍的聪明策略

清华大学团队破解图像生成的"速度魔咒":让AI画图快三倍的聪明策略

清华大学团队开发的StageVAR技术通过分析AI图像生成的三个阶段特性,创新性地采用阶段感知加速策略,在第三阶段利用语义无关性和低秩特征压缩技术,实现了3.4倍速度提升而质量几乎无损。这项即插即用的技术为AI图像生成效率优化提供了全新思路。

机器学习的"瘦身"革命:英国研究团队如何让AI模型既聪明又节能

机器学习的"瘦身"革命:英国研究团队如何让AI模型既聪明又节能

英国研究团队开发了ModernALBERT模型,通过创新的"混合低秩专家"(MoL)技术,成功解决了AI模型参数共享导致的性能损失问题。该技术让小型模型在多项权威测试中超越了更大的传统模型,同时配套的专家融合策略实现了高效部署。这项研究为资源受限环境下的高质量AI应用开辟了新路径。

苹果明年将推出20多款新品,重磅产品抢先看

苹果明年将推出20多款新品,重磅产品抢先看

苹果计划在明年推出比往年更大规模的新产品阵容。亮点包括全新的苹果家居产品、价格亲民的MacBook、iPhone 17e等。夏季将在WWDC发布iOS 27等全新系统,秋季将推出折叠屏iPhone等重磅产品。此外还有新款Mac显示器、Apple Watch和iPad等25款新品传闻将在2026年发布,为苹果用户带来众多期待。

百度自动驾驶出租车将于2026年进入伦敦市场

百度自动驾驶出租车将于2026年进入伦敦市场

中国互联网巨头百度宣布,其Apollo Go无人驾驶出租车服务将于2026年上半年在伦敦进行试点运营,并获得Uber和Lyft的合作支持。英国2024年《自动驾驶汽车法案》为机器人出租车铺平了道路。尽管无人驾驶出租车已完成数百万次安全出行,但仍存在技术挑战,包括在交通信号灯故障时可能造成交通堵塞等问题。

让静止的姿态"活"起来:伊利诺伊大学团队如何用AI让两个人的互动动作栩栩如生

让静止的姿态"活"起来:伊利诺伊大学团队如何用AI让两个人的互动动作栩栩如生

这项由伊利诺伊大学厄巴纳-香槟分校和Snap Inc.联合完成的研究提出了Ponimator,一个创新的AI框架,通过以两人互动姿态为中心,生成自然流畅的人类互动动作。该方法采用两个协作的扩散模型:一个从互动姿态生成动作序列,另一个从单人姿态、文字或两者结合生成互动姿态。Ponimator支持多种应用,包括真实图像中的两人互动动画、单人图像的互动生成和文字到互动的合成,在多个数据集上展现出强大的泛化能力和物理合理性。

MIT团队重新定义生成模型:用学会的"逆向"替代精确逆向,速度提升697倍!

MIT团队重新定义生成模型:用学会的"逆向"替代精确逆向,速度提升697倍!

MIT研究团队提出了突破性的双向归一化流(BiFlow)技术,通过训练独立的逆向模型替代传统的精确逆向过程,解决了归一化流方法架构受限和推理缓慢的核心问题。该方法采用创新的隐藏对齐策略,让逆向模型学习高效的生成路径,在ImageNet数据集上实现了高达697倍的速度提升,同时将图像质量提升到新的技术水平,为生成模型领域带来了重要的思路突破。

MIT团队推出NIGHTJAR系统:让自然语言和代码实现"心有灵犀"的共享状态

MIT团队推出NIGHTJAR系统:让自然语言和代码实现"心有灵犀"的共享状态

MIT研究团队开发了NIGHTJAR系统,实现了"共享程序状态"编程模式,让自然语言代码能直接访问和修改程序数据,而非传统的数据转换方式。实验显示该方法比传统实现准确性提高4-19%,代码减少39.6%,但运行时间增加0.4-4.3倍。这项技术为编程范式演进提供了新方向,可能降低编程门槛,让更多人参与软件开发。

清华大学研究团队颠覆传统:用最简单的方法让小AI模型在数学推理上大放异彩

清华大学研究团队颠覆传统:用最简单的方法让小AI模型在数学推理上大放异彩

清华大学研究团队提出JustRL方法,用单阶段训练和固定参数的简单强化学习配方训练15亿参数AI模型,在九个数学基准测试中达到54.9%和64.3%的平均准确率,性能匹配或超越复杂多阶段方法,同时计算资源减半。研究挑战了AI训练中的复杂化趋势,证明简单方法的有效性。

REGLUE:让AI图像生成更懂语义的革命性技术——来自希腊国家科学研究中心的重大突破

REGLUE:让AI图像生成更懂语义的革命性技术——来自希腊国家科学研究中心的重大突破

希腊科学家开发出REGLUE技术,革命性地改进了AI图像生成。该技术通过同时整合图像重建、局部语义和全局语义三种信息,让AI生成的图像不仅视觉效果好,语义理解也更准确。核心创新是轻量级语义压缩器,能将复杂语义信息压缩200倍而保持丰富性。实验显示REGLUE比传统方法快25%达到更好效果,为AI图像生成的实际应用铺平道路。

蚂蚁集团发布VenusBench-GD:首个全平台GUI智能交互能力测试基准

蚂蚁集团发布VenusBench-GD:首个全平台GUI智能交互能力测试基准

蚂蚁集团Venus团队发布了首个全平台GUI智能交互测试基准VenusBench-GD,包含6166个测试样本,覆盖手机、网页、电脑三大平台97个应用。该基准建立了从基础识别到复杂推理的分层评估体系,测试结果显示通用AI模型在基础任务上已追平专业模型,但在高级推理任务上仍有差距,为AI界面理解能力评估提供了新标准。

时间序列也会"说话"?这个突破性AI让数据图表变成了智能分析师

时间序列也会"说话"?这个突破性AI让数据图表变成了智能分析师

这项由UC伯克利等机构开发的突破性研究,创建了首个时间序列与自然语言对齐的大规模数据集TS-Insights,包含10万个样本。他们开发的Insight Miner AI系统能够直接"读懂"时间数据图表,用普通话解释其中的趋势和规律,性能媲美GPT-4,为实现"数据分析民主化"奠定了基础。

CIO总结2025年人工智能实用化的十大关键启示

CIO总结2025年人工智能实用化的十大关键启示

2025年人工智能在企业中实现突破性应用,从实验阶段转向实用阶段。八位代表性CIO分享核心经验:AI工具快速进化、需保持快节奏实验思维、重视工作流程而非组织架构、数据质量成为新挑战、采用前瞻性指标管理项目、无需等待完美时机、AI既是技术也是社会文化现象、需严格项目管理、变革重在人员而非技术、多智能体架构成未来趋势。

软银竭力筹措225亿美元资金支持OpenAI

软银竭力筹措225亿美元资金支持OpenAI

日本科技投资巨头软银需要在年底前筹集225亿美元,以履行对AI合作伙伴OpenAI的资金承诺。软银是OpenAI价值5000亿美元Stargate数据中心计划的主要资助者之一。为筹集资金,软银CEO孙正义可能动用多种手段,包括利用其持有的英国芯片设计公司Arm股份作为抵押贷款。软银已清仓英伟达股份为该项目提供资金,目前可通过Arm股份借贷115亿美元,还持有价值110亿美元的T-Mobile股份及270亿美元现金储备。

2025年十大IT领导层访谈盘点

2025年十大IT领导层访谈盘点

人工智能已成为2025年IT领导者最大的关注焦点。在经济环境仍然困难的背景下,技术领导者需要将AI融入整体战略,管理过度炒作的期望,同时严控成本、应对技能短缺和确保网络安全。本文精选了Computer Weekly对全球顶级技术领导者的十大访谈,涵盖BBC研发总监、英国地形测量局CTO、汤森路透COO等,展示他们如何在各自领域运用AI技术改善业务。