中国科大与美团联合构建DailyReport评测基准,通过级联评分体系测试17个顶尖AI搜索系统,揭示当前系统在事实准确性上的显著短板。
上海AI实验室等机构联合推出PhySciBench测试基准和DelveAgent多智能体框架,系统评估AI在物理化学科研任务中的真实能力,最强基准得分仅33.5%,新框架提升至41%。
FlowBP提出统一代理轨迹框架,将直接奖励反向传播拆解为四个设计旋钮,在三个文生图模型上超越现有直接梯度方法。
纽约州首席信息官Dru Rai从企业界转型公共部门后,形成了全新的AI投资思维。面对预算有限的压力,他的团队通过"快速试错、严格管控"的方式推进AI试点,及时止损而非盲目投入。他建议企业CIO借鉴政府的精打细算理念:无需追求最快速度,选择性价比更高的AI模型同样能达成目标。随着AI定价模式向按用量或按结果收费转变,企业正感受到真实成本压力,公共部门的务实经验或许正是当下所需。
AI领域重量级人物Noam Shazeer宣布加入OpenAI。他是划时代论文《Attention Is All You Need》的八位联合作者之一,也是现代AI模型核心技术Transformer的创造者之一。Shazeer曾因谷歌不支持其聊天机器人Meena而离职,后创立Character.AI并以27亿美元被谷歌收购,随后主导Gemini项目。此次跳槽至OpenAI,恰逢该公司IPO前夕,此举对投资者颇具吸引力。
阿里巴巴提出CoD框架,通过强化学习训练AI在长期任务中积累跨任务经验,实现"越用越熟"的持续自我提升能力。
这项研究为AI问答助手引入双通道实时遥测信号,让其在每次决策前知晓自身置信度与证据接地情况,有效减少盲目检索与错误提交。
AI检测初创公司GPTZero宣布被Superhuman收购。GPTZero由普林斯顿毕业生Edward Tian创建,已积累超过1900万注册用户,年经常性收入达3000万美元,累计融资仅1350万美元。Superhuman是Grammarly去年收购同名邮件服务商后更名而来的公司,其平台已内置AI检测工具。此次收购后,Superhuman表示"两个AI检测器胜过一个",旨在进一步强化识别AI生成内容的能力。
SPROUTRAG是英属哥伦比亚大学提出的层次化检索框架,用句子注意力信号建树,通过分层束搜索实现多粒度证据检索,平均信息效率提升6.1%。
MCOMPASSRAG是不列颠哥伦比亚大学等机构联合提出的检索增强生成框架,通过为粗粒度文档段落附加话题元数据,结合轻量级学生检索器蒸馏,在六个基准上显著提升检索信息效率,延迟仅174毫秒。
慕尼黑工业大学研究发现,影响AI以貌取人判断的主要是服装、发型等约15个外貌细节,而非种族或性别,破旧衣物的负面影响比正装的正面影响强1.38倍。
MemSlides是北京邮电大学、清华大学、上海交通大学联合开发的个性化幻灯片生成系统,通过用户档案记忆、工作记忆和工具记忆三层架构,让AI助手真正"记住"用户风格偏好并实现精准局部修改。
在本周举行的国际生物技术大会上,英伟达医疗健康与生命科学部门副总裁Kimberly Powell发表演讲,宣布推出BioNeMo智能体工具包。该工具包将大型语言模型转化为专业AI智能体,可执行从文献综述到蛋白质设计的端到端生物化学工作流程。英伟达表示,BioNeMo支持多种主流LLM平台,并针对算力成本与任务效率进行优化,有望将原本耗时数月的药物研发流程压缩至数天。
AI芯片制造商Cerebras Systems发布上市后首份财报,营收达1.93亿美元,同比增长92%,超出分析师预期,但每股亏损22美分,逊于预期的16美分。公司还预警本季度毛利率将从46.5%收窄至36%~38%,引发投资者担忧,盘后股价下跌约10%至202美元左右。此外,公司宣布与亚马逊AWS合作及200亿美元OpenAI供算协议,全年营收指引中值同比增长约69%。
印度客户互动软件公司MoEngage以全现金方式收购旧金山初创企业Aampe,交易金额达数千万美元。Aampe成立于2020年,其技术为每位客户配备专属AI代理,实现基于个人行为的精准营销,而非传统受众分组方式。此次收购将帮助MoEngage与Salesforce、Adobe等竞争对手争夺企业客户。约20名Aampe员工将加入MoEngage,使其员工总数达约820人。
BrainG3N提出双阶段令牌器,用冻结MAE编码器分离临床信息提取与图像重建,在23项临床任务中领先三个基础模型,并支持条件生成与纵向预测。
遮蔽扩散模型通过"反射性遮蔽"机制获得主动自我修正能力,无需改变架构,即可在图像编辑、数独推理和数学/代码生成任务中实现精准局部迭代修改。
GATEMEM是首个专门评估多用户共享记忆AI助手治理能力的基准测试,同时考察有效服务、访问控制和主动遗忘三个维度,覆盖医疗、办公、教育、家庭四大场景。
英国政府通过英国研究与创新机构(UKRI)向牛津大学和伦敦大学学院(UCL)提供6000万英镑,用于建立下一代AI研究实验室,资助期限为六年。UCL主导的SoFair实验室将联合剑桥、牛津、爱丁堡大学,研发开源AI技术,降低对少数主流架构的依赖。牛津主导的Bold实验室则专注于开放、高效、以人为本的AI系统研发,推动AI在工作场所、基础设施及公共服务中的广泛应用。
Gartner分析师在悉尼数据与分析峰会上指出,尽管近八成企业正在加大AI投入,但若缺乏清晰目标与有效治理,投资将难以转化为业务价值。研究显示,对数据管理、治理与人才等基础工作投入更多的企业,AI成果满意度显著更高。Gartner建议企业将现有风险、数据与网络安全治理团队整合为统一的AI治理机构,并将治理理念从合规导向转变为业务价值加速器,同时加大人员培训投入,构建人机协作的融合型团队。