这项由上海AI实验室等多家机构联合完成的研究推出了名为Lumina-DiMOO的统一多模态AI模型,它采用全新的离散扩散建模技术,同时具备图像理解和生成能力。该模型在生成速度上比传统方法快32倍,支持任意分辨率处理,并具备独特的交互式修饰功能,在多个权威基准测试中均取得领先成绩,为多模态AI发展开辟了新方向。
清华大学等机构联合提出Cache-to-Cache(C2C)方法,让AI大模型抛弃传统文字交流,直接传递内部理解结构。该方法通过"缓存融合器"实现模型间的深层语义交流,相比传统方式准确率提升3-5%,速度提升2倍。实验证明C2C在多种任务中表现优异,为AI协作开辟了新路径,有望让未来AI系统更智能高效。
西湖大学研究团队提出OBS-Diff框架,专门解决大型AI图像生成模型的压缩难题。该方法通过时间感知的海森矩阵构建和模块包批处理策略,能在保持高图像质量的同时实现高达70%的模型压缩。实验显示,即使在极高压缩比下,OBS-Diff依然能生成清晰连贯的图像,显著优于传统剪枝方法,有望大幅降低AI图像生成技术的硬件门槛。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
当OpenAI和谷歌等科技巨头追求更大模型时,IBM选择专注于企业AI的推理基础设施。通过与Anthropic和Groq的新合作,IBM将语言处理单元集成到watsonx平台,声称企业智能体AI系统运行速度比传统GPU快5倍且更具成本效益。IBM采用模块化混合策略,整合智能、推理和治理三个层面,为企业提供跨云环境的AI解决方案,避免生态系统锁定,专注于让AI在实际生产环境中更实用。
谷歌Gemini深度研究工具现已升级,可访问Gmail、Drive和Chat等应用获取数据来回答研究问题。该功能基于Gemini 2.5 Pro,采用多步骤流程进行深度分析。用户需授权后,系统可访问Google Workspace中的相关数据以提升研究效果。谷歌确认连接应用的信息不会用于改进AI模型,但会有人工审核员审查部分数据。专家对该功能评价不一,有人质疑其仅能产生"研究外观"而非真正研究。
MIT研究人员详述了一种新的软件模型,旨在帮助人类和AI代码生成器创建更好、更透明的应用程序。该方法通过将系统分解为"概念"模块来解决现代软件"不可读"问题,避免代码与行为缺乏直接对应关系。研究指出,大语言模型在编程中暴露了软件开发的深层缺陷,新模型可确保增量性、完整性和透明性,让AI工具提供可预测的编程结果。
思科发布统一边缘平台,这是一个专为分布式AI工作负载设计的去中心化网络架构。该平台将计算、网络、存储和安全功能部署到更接近数据源的位置,支持实时AI推理。平台提供零接触部署和基于云的集中管理。思科还推出了适应边缘计算需求的新型服务器和路由器。分析师认为,随着AI智能体查询产生的网络流量比传统聊天机器人高25倍,这种边缘基础设施变得至关重要。
模型上下文协议(MCP)作为连接AI助手与数据源及外部工具的开放标准,在AI开发者圈中已成为不可或缺的技术。然而,面对95%的生成式AI项目未能实现显著业务成果的现状,CIO们正在权衡是否应在有限的IT预算中引入MCP服务器。专家建议采用阶段性策略:先通过采购建立基础能力并验证商业价值,再在识别出真正竞争优势的领域进行自建开发,以平衡成本控制与技术创新需求。
Backblaze第三季度云存储和备份收入达3720万美元,超出指导预期上限,GAAP亏损减至380万美元。B2云存储同比增长28%,获得现有客户七位数扩展订单。然而备份云存储业务连续三个季度零增长,收入持平在1650万美元。公司预计第四季度实现自由现金流为正,AI客户推动云存储业务快速发展。
加州大学圣地亚哥分校研究团队发现,广泛使用的AI评估基准存在严重的时间错位问题。在五个主要基准中,24%-64%的时间敏感问题答案已过时,导致掌握最新知识的先进AI模型反而在测试中被误判。这一发现揭示了AI评估体系的可信度危机,对数千项相关研究产生潜在影响,呼吁建立动态更新的评估机制。
斯坦福大学等顶尖研究机构联合开发的TTRV技术首次实现AI"边学边考",让人工智能在处理视觉问题时能够实时自我学习和改进。该技术通过分析AI多次回答的分布模式来提取奖励信号,结合频率分析和思维集中度控制,无需外部标注数据就能显著提升模型性能,在图像识别中最高提升52.4%,甚至让开源模型超越GPT-4o。
这篇论文系统梳理了文本到视频生成技术从2018年至2025年的完整发展历程,分析了从早期GAN模型、VAE方法到最新扩散模型的技术演进。研究详细比较了各代表性模型的架构特点、训练配置和性能表现,探讨了数据集建设、评估方法等关键问题,并识别了当前面临的主要挑战。论文为这个快速发展的AI领域提供了迄今最全面的技术图谱,为未来研究方向提供了重要指导。
香港浸会大学研究团队开发的AlphaApollo系统,让多个AI模型像阿波罗登月团队一样协作推理。系统为AI配备Python计算工具和文档检索工具,解决了传统AI无法精确计算和独自推理的局限。在数学竞赛测试中,该系统将AI表现大幅提升,部分模型通过率翻倍。这种协作式AI代表了新的发展方向,未来有望带来更可靠智能的AI助手。
上海交大团队开发的G?RPO技术通过"单步随机采样"和"多粒度优势集成"两大创新,解决了AI绘画训练中奖励信号稀疏和评估不全面的问题。该技术在Flux.1-dev模型上实现了6.52%的性能提升,不仅改善了图像质量和文本遵循性,还提高了训练效率。这项突破为AI更好理解人类审美偏好提供了新路径。
清华大学团队开发出D3QE系统,专门检测自回归AI模型生成的假图片。该系统通过分析AI模型的"用色习惯"和量化误差,在多种测试中达到82-97%的检测准确率。研究构建了包含7种主流自回归模型的ARForensics数据集,为AI图片检测领域提供了新的解决方案和研究基础。
MiroMind AI发布MATPO多智能体训练技术,通过让单个AI模型同时扮演策划者和执行者角色实现协作。该方法在三个测试基准中平均性能提升18.38%,有效解决了传统单智能体系统记忆容量限制和信息干扰问题,为AI协作开辟新路径。
Google DeepMind发布"Vibe Checker"智能代码评估系统,首次系统性地解决了AI编程中"功能正确但感觉不对"的问题。通过对31个主流AI模型的测试发现,人类程序员的代码偏好需要功能正确性与代码规范的巧妙平衡,该研究为AI编程助手的优化指明了新方向。
微软和台湾大学联合开发的SHANKS框架首次让AI语音模型实现"边听边想"能力。该系统将用户语音切分成4秒片段,在倾听过程中同步生成无声思考内容。在数学教学场景中,SHANKS能发现84.8%的学生错误并及时打断纠正。在旅行助手应用中,可在用户说话期间完成56.9%的API调用工作,显著提升响应效率。这项技术为实现更自然的人机语音交互开辟了新方向。