人工智能 关键字列表
机器人终于学会"察言观色":上海AI实验室让机器人像人类一样边思考边行动

机器人终于学会"察言观色":上海AI实验室让机器人像人类一样边思考边行动

上海AI实验室团队开发的InstructVLA系统实现了机器人"边思考边行动"的突破,解决了传统机器人语言理解与动作执行分离的难题。该系统通过创新的两阶段训练和混合专家架构,让机器人能理解抽象指令并灵活执行任务,在复杂推理任务中比现有系统提升92%,标志着智能机器人助手时代的重要进展。

北大等高校联手:让AI图像生成"因人而异",1000种个性安全标准重塑创作边界

北大等高校联手:让AI图像生成"因人而异",1000种个性安全标准重塑创作边界

这项由北京大学、电信人工智能研究院、耶鲁大学和新加坡国立大学联合完成的研究,提出了PSA个性化安全对齐框架,首次实现了AI图像生成的"因人而异"安全控制。通过构建包含1000个虚拟用户档案的Sage数据集,该框架能根据用户的年龄、宗教、健康状况等特征动态调整内容过滤策略,既保护敏感用户又避免过度限制,为AI安全领域从"一刀切"向个性化转变提供了重要突破。

AI模型也要学会精打细算:宾夕法尼亚大学团队揭示多阶段任务中的智能计算预算分配秘诀

AI模型也要学会精打细算:宾夕法尼亚大学团队揭示多阶段任务中的智能计算预算分配秘诀

宾夕法尼亚大学研究团队开发了AgentTTS系统,解决多阶段AI任务中的计算资源分配难题。通过发现不同子任务对模型大小的偏好差异、最优预算点存在性和子任务间相互依赖关系三个关键规律,该系统能智能分配计算预算,在六个数据集上的测试显示其在搜索效率和最终性能上均超越传统方法,为AI资源管理提供了新思路。

港科大团队让AI注意力机制学会"挑重点":动态掩码稀疏注意力让大模型更聪明更高效

港科大团队让AI注意力机制学会"挑重点":动态掩码稀疏注意力让大模型更聪明更高效

港科大团队提出的动态掩码稀疏注意力机制通过内容感知的动态掩码生成和位置感知的稀疏计算,让大语言模型学会智能分配注意力资源。该方法在保持完整信息的同时大幅降低计算复杂度,在长序列处理中实现10倍以上加速,并在多项基准测试中超越现有方法,为高效长文本处理提供了新的解决方案。

腾讯AI实验室打造全新开源智能体框架:让AI助手真正走向免费开放

腾讯AI实验室打造全新开源智能体框架:让AI助手真正走向免费开放

腾讯AI实验室推出认知内核-专业版,这是首个完全开源且几乎免费的AI智能体框架。该框架通过创新的分层架构和统一接口设计,最大化利用大语言模型能力,避免对昂贵专有工具的依赖。研究团队还训练了8B参数的CK-Pro-8B模型,在GAIA基准测试中超越同等规模开源模型,为AI助手的民主化发展提供了重要技术基础。

打破语言和视觉边界:斯图加特团队创造首个跨语言多模态AI测试基准

打破语言和视觉边界:斯图加特团队创造首个跨语言多模态AI测试基准

这项由意大利布鲁诺·凯斯勒基金会等机构联合完成的研究创建了首个跨语言多模态AI评测基准MCIF,涵盖英德意中四种语言,包含文字、语音、视频三种模态和13项任务。通过对21个先进AI模型的测试,发现AI在长文本处理、跨模态融合和指令鲁棒性方面存在显著不足,为AI技术改进指明了方向。

三星SAIL实验室开发AI游戏制作神器:让电脑学会看着录像来改进自己做的游戏

三星SAIL实验室开发AI游戏制作神器:让电脑学会看着录像来改进自己做的游戏

三星SAIL实验室开发了一套AI游戏制作系统,包含评测器AVR-Eval和制作器AVR-Agent。系统能通过观看游戏录像来评判质量,并基于反馈不断改进游戏。测试显示该方法比一次性生成效果好79.2%,但AI目前还不能有效利用外部资源和反馈,展现了人机创作的根本差异。

三大AI巨头同时发布新模型:OpenAI、Anthropic、Google齐亮剑

三大AI巨头同时发布新模型:OpenAI、Anthropic、Google齐亮剑

三家AI巨头同时发布重磅新模型。OpenAI推出首批开放权重模型OSS 120b和OSS 20b,具备Apache许可证,大模型推理能力与o4-mini相当,小模型可在智能手机运行。Anthropic发布Claude Opus 4.1,在代码编程和推理任务上显著提升。Google DeepMind推出Genie 3世界模型,可实时生成可交互的720p游戏世界,被视为通向AGI的重要步骤。

机器人利用生成式AI实现自主编程获突破

机器人利用生成式AI实现自主编程获突破

加州大学欧文分校计算机科学家Peter Burke展示了机器人如何通过生成式AI模型和硬件自主编程大脑。该项目中,AI模型被提示编写代码,创建实时无人机地面控制系统,运行在搭载树莓派的无人机上。整个过程耗时2.5周,生成1万行代码,效率比传统开发提升20倍。研究发现当前AI模型处理超过1万行代码时准确性显著下降。专家认为这标志着空间智能和自主捕获技术的重大进步。

OpenAI发布两款"开源"AI推理模型

OpenAI发布两款"开源"AI推理模型

OpenAI发布了两款开放权重AI推理模型gpt-oss-120b和gpt-oss-20b,具备与o系列相似的推理能力。这是OpenAI自五年前GPT-2以来首次发布开放模型。两款模型在多项基准测试中表现优异,其中120b版本可在单个英伟达GPU上运行,20b版本可在16GB内存的消费级笔记本上运行。模型采用Apache 2.0许可证发布,支持商业化使用。

Cohere发布North智能体平台,承诺企业数据安全部署

Cohere发布North智能体平台,承诺企业数据安全部署

加拿大AI公司Cohere推出名为North的AI智能体平台,承诺通过私有部署确保企业和政府数据安全。该平台可在客户自有基础设施上运行,包括本地环境、混合云或离线环境,最少仅需两个GPU。North具备聊天搜索功能,支持客服查询、会议记录总结等,并集成Gmail、Slack等办公工具,符合GDPR等国际合规标准。

香港科技大学团队让电脑听音识画面:仅凭声音就能生成逼真视频

香港科技大学团队让电脑听音识画面:仅凭声音就能生成逼真视频

香港科技大学研究团队开发出SpA2V框架,这是首个能够从音频中提取空间信息并生成对应视频的AI系统。该技术不仅能识别声音类型,还能准确判断声源位置、移动方向和距离,通过两阶段生成过程实现"听音生画"。实验结果显示SpA2V在空间对应性和视频质量方面显著超越现有方法,为音频可视化、影视制作、教育应用等领域开辟了新的可能性。

语言模型的固定长度束缚终被打破:香港中文大学推出DAEDAL让AI文本生成像人一样灵活

语言模型的固定长度束缚终被打破:香港中文大学推出DAEDAL让AI文本生成像人一样灵活

香港中文大学联合上海AI实验室开发的DAEDAL技术,突破了扩散语言模型固定长度限制的束缚。通过智能的长度预估和动态扩展机制,让AI能够根据任务复杂度自动调整回答长度,在数学推理等任务上准确率提升至85.8%,同时大幅提高计算效率。这项无需重新训练的技术为AI系统的自适应能力开辟了新方向。

南京大学团队颠覆性新作:告别VAE,让AI直接在像素世界中绘制完美图像

南京大学团队颠覆性新作:告别VAE,让AI直接在像素世界中绘制完美图像

南京大学团队提出PixNerd,一种革命性的像素空间图像生成模型。该模型摒弃传统VAE两阶段架构,直接在像素层面工作,通过神经场技术实现端到端训练。在ImageNet测试中达到2.15 FID,推理速度比同类模型快8倍,支持任意分辨率生成。研究还扩展至文本生成图像,在GenEval和DPG基准测试中表现优异,为AI图像生成提供了更简洁高效的解决方案。

上海交大研究团队让AI从过往经验中学习,代码修复准确率突破40%

上海交大研究团队让AI从过往经验中学习,代码修复准确率突破40%

上海交大团队开发SWE-Exp系统,让AI能从过往代码修复经验中学习,通过构建"经验银行"存储成功和失败案例,采用双智能体协作模式实现智能修复。在基准测试中达到41.6%成功率,比之前最好方法提升7.2%,开创了从试错探索向经验驱动修复的新范式。

清华大学团队打造3D世界的"智能向导":让机器人看图就能找到任何地方

清华大学团队打造3D世界的"智能向导":让机器人看图就能找到任何地方

清华大学团队开发的IGL-Nav系统实现了机器人图像导航的重大突破,让机器人能够仅通过一张任意角度拍摄的照片准确找到拍摄地点。该系统采用3D高斯点云技术进行实时场景重建,结合粗定位到精定位的分层策略,在传统和自由视角导航任务中都显著超越现有方法。系统已成功部署到真实机器人平台,展现出强大的泛化能力和实用价值。

Google高管否认AI搜索降低网站点击量

Google高管否认AI搜索降低网站点击量

谷歌搜索负责人莉兹·里德发表博文回应外界质疑,声称AI搜索功能并未减少网站流量。她表示总体有机点击量同比保持稳定,同时谷歌搜索次数在增加。这似乎是对皮尤研究中心分析的回应,该研究显示AI概览功能降低了点击率。不过谷歌并未提供具体数据支撑其说法,且承认用户有时仅从AI答案中获取所需信息而不再点击。

微软Project Ire登场,AI智能体首次承担逆向工程师角色

微软Project Ire登场,AI智能体首次承担逆向工程师角色

微软发布了名为Project Ire的自主AI代理,声称可在无人协助下检测恶意软件。该原型使用大语言模型和二进制分析工具对软件进行逆向工程,判断代码是否恶意。在约4000个"困难目标"文件的实际测试中,该AI代理标记为恶意的文件中89%确实是恶意的,但仅检测出所有恶意软件的26%。微软计划将其集成到Defender安全工具套件中,作为威胁检测的二进制分析器。

谷歌推出"引导式学习"工具对抗ChatGPT学习模式

谷歌推出"引导式学习"工具对抗ChatGPT学习模式

随着新学年临近,Google在Gemini中推出"引导学习"工具,旨在像AI导师一样帮助用户深入理解概念而非简单获取答案。该功能通过图像、图表、视频和互动测验逐步分解问题,适应用户需求。此举紧随OpenAI推出ChatGPT学习模式一周后,两家公司都试图解决AI聊天机器人可能削弱学习过程的担忧。Google还宣布为美国、日本、印尼、韩国和巴西学生提供免费一年AI Pro订阅。

Lava支付平台获580万美元融资,为智能体原生经济构建数字钱包

Lava支付平台获580万美元融资,为智能体原生经济构建数字钱包

支付平台Lava Payments获得580万美元种子轮融资,由Lerer Hippeau领投。该公司致力于为AI代理经济构建数字钱包解决方案,允许用户使用统一积分在多个商户和服务间进行交易,无需人工干预。创始人Mitchell Jones发现在使用AI工具时需要重复订阅和认证,因此开发了这一平台。用户可一次性购买使用积分,AI代理可在执行任务时自动扣费,简化了支付流程。