华盛顿大学的佩德罗·多明戈斯教授提出了张量逻辑这一革命性的AI编程语言概念。该研究发现神经网络的张量运算与符号推理的逻辑规则在数学上等价,只需一种构造——张量方程——就能统一表示所有AI方法。张量逻辑能够在嵌入空间中进行可靠推理,通过温度参数控制从严格逻辑推导到类比推理的连续过渡,有望解决大型语言模型的幻觉问题,为AI发展提供更透明可靠的基础工具。
阿里巴巴DAMO学院最新研究发现AI模型的隐藏天赋:仅通过文本训练就能显著提升图像、音频、视频处理能力。研究提出语言中心的全模态嵌入学习框架,使用21倍更少的数据创造多项国际记录,并发现"生成-表示缩放定律",为AI发展指明新方向。
谷歌推出升级版图像生成模型Nano Banana Pro,基于最新Gemini 3语言模型构建。新模型支持更高分辨率(2K/4K)、准确文本渲染、网络搜索功能,并提供专业级图像控制能力,包括摄像角度、场景光照、景深等。虽然质量更高但成本也相应增加,1080p图像费用为0.139美元。模型已集成到Gemini应用、NotebookLM等多个谷歌AI工具中,并通过API向开发者开放。
谷歌为Gemini应用和网页版发布SynthID检测器,允许用户上传图像判断是否由AI生成。但该功能局限性明显,仅能识别带有谷歌SynthID水印的Gemini生成图像。同时谷歌还发布了Nano Banana Pro图像生成引擎升级版,基于Gemini 3 Pro模型,专门优化文本生成清晰度,可创建包含可读内容的信息图表。
OpenAI宣布ChatGPT群聊功能正式向全球所有用户开放,涵盖免费版、Go版、Plus版和Pro版计划。该功能允许最多20人在共享对话中与ChatGPT协作,用于规划旅行、共同撰写文档、解决争议或进行研究。用户个人设置和记忆保持私密,ChatGPT能智能判断何时参与对话。这标志着OpenAI将ChatGPT从简单聊天机器人转变为社交协作平台的重要步骤。
为应对AI数据中心激增带来的能源缺口,谷歌与西屋公司合作,计划于2030年开始建设10座核反应堆。双方开发了基于谷歌云的AI优化平台,早期测试显示可显著节约成本和时间。西屋公司此前宣布投资800亿美元建设AP1000反应堆,单座功率1150兆瓦可供750万家庭使用。新AI平台有望将反应堆建设周期从传统的10-15年缩短至5-6年。
人工智能机器人初创公司Sunday今日发布家用机器人Memo,专门设计用于完成日常家务。该机器人采用无腿设计,配备厚重滚动平台,可执行厨房清洁、洗碗、制作咖啡等任务。公司开发了技能捕捉手套,在500多个家庭中收集了1000万个真实家务数据用于训练。Sunday获得3500万美元融资,计划2026年底向50个家庭提供测试版本。
SkyReels是专为营销人员、设计师和社交媒体内容创作者打造的多模态生成式AI视频平台。该平台整合了Google Veo 3.1、Sora 2等顶级AI模型,支持文本转图像、图像转视频等多种工作流程。平台特色包括智能创意助手Expert Agent,通过结构化问答指导创作流程,以及150多个针对服装、消费品等领域的专业模板。SkyReels专注于TikTok、Instagram等社交平台的快速内容制作需求。
2025年5G独立组网网络持续增长,爱立信移动报告显示,已有超过90家通信服务提供商推出5G SA网络,比去年同期增加约30家。研究发现118个网络切片差异化连接服务案例,其中65个已进入商用阶段,21个于2025年推出。预计2025年底5G用户数将达29亿,占移动用户总数三分之一。移动网络数据流量同比增长20%,5G网络预计处理43%的移动数据。固定无线接入宽带服务持续增长,预计2031年全球14亿人可通过5G接入FWA宽带。
英伟达第三季度营收达570亿美元,其中数据中心业务贡献510亿美元,同比增长66%。CEO黄仁勋表示,AI推理需求因预训练、后训练和推理能力的进步而呈指数级增长。NVLink AI网络基础设施业务增长162%,营收82亿美元。公司专注于功耗比优化以降低数据中心运营成本。尽管中国市场受地缘政治影响,但英伟达致力于在全球AI计算领域保持领导地位。
维基百科编辑团队发布了一份识别AI写作的公开指南,成为目前最有效的AI文本检测资源。该指南基于2023年启动的"AI清理项目",通过分析大量编辑内容总结出AI写作的特征模式:过度强调主题重要性、使用"关键时刻"等通用表述、详述次要媒体报道以凸显重要性、频繁使用模糊的重要性声明如"强调意义"等现在分词结构,以及倾向于使用"风景如画"等营销化语言。这些特征深植于AI模型训练方式中,难以完全消除。
企业AI发展到关键节点,但多数项目在产生价值前就陷入停滞。数据科学家需要使用7-15种工具来处理数据,仍需数月时间才能获得可用状态。IDC显示仅44%的AI试点项目进入生产阶段。Hammerspace AI数据平台在NVIDIA GTC 2025上发布,通过虚拟化现有存储创建统一全局命名空间,支持多协议访问,内置向量数据库,让企业无需昂贵基础设施改造即可将现有数据转化为AI就绪资源。
武汉大学研究团队提出DITING网络小说翻译评估框架,首次系统评估大型语言模型在网络小说翻译方面的表现。该研究构建了六维评估体系和AgentEval多智能体评估方法,发现中国训练的模型在文化理解方面具有优势,DeepSeek-V3表现最佳。研究揭示了AI翻译在文化适应和创意表达方面的挑战,为未来发展指明方向。
伊利诺伊大学团队开发的ERA框架通过创新的两阶段训练方法,让30亿参数的小型AI模型在具身智能任务上超越了GPT-4o等大型模型。该框架结合具身先验学习和在线强化学习,在高级规划和低级控制任务上分别实现了8.4%和19.4%的性能提升,为小而精的AI发展路径提供了重要示范。
香港大学团队开发的SRUM框架首次实现了统一多模态AI系统的内部自我指导机制。通过让系统的理解模块充当"内部教师"指导生成模块改进,结合全局-局部双重奖励评价系统,在复杂图像生成任务上取得显著突破,为AI系统自主改进开辟了新路径。
清华大学团队提出BGPO算法,巧妙解决扩散大语言模型强化学习训练中的内存瓶颈问题。通过将复杂指数运算转化为线性运算,实现内存使用量恒定,支持更大规模重复计算。实验显示该方法在数学、编程、游戏等任务上显著提升性能,其中游戏规划准确率提升68%,为AI训练效率优化提供新思路。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
这项由北京交通大学等机构联合完成的研究首次将记忆管理作为AI的内在学习能力,而非外部工具。MemAct框架让AI主动编辑工作记忆,配合新开发的DCPO训练算法解决了记忆编辑带来的技术挑战。实验证明,较小的MemAct模型能以更少资源超越大型传统模型,不同规模模型还会自然演化出适应性策略,为AI效率提升开辟了新路径。
这项由阿里巴巴AMAP团队联合英伟达和加州理工完成的研究,成功实现了AI直接在像素空间生成高质量图像,无需依赖VAE编码器这个"中间商"。通过创新的两阶段训练框架,EPG模型在ImageNet-256上达到2.04的FID分数,仅需75次函数评估,性能媲美主流VAE方法但效率更高。研究还首次成功训练出像素空间一致性模型,实现8.82 FID的单步生成效果,为AI图像生成技术开辟了新的发展道路。
Adobe研究院联合以色列理工学院和特拉维夫大学提出了VLM引导的自适应负向提示方法,通过在AI图像生成过程中实时识别并排除常见模式,成功解决了现有AI模型只能生成典型化内容的问题。该方法让AI在约束中探索真正的创意空间,生成的创意宠物中87%属于未知类别,同时保持了物体的功能有效性,为AI创意生成开辟了新路径。