英国和爱尔兰科学家开发出名为PhenMap的AI工具,可识别哪些结直肠癌患者最可能从贝伐珠单抗治疗中获益。该工具通过分析117名患者的肿瘤基因组成及临床数据,构建机器学习模型,为患者评估用药获益与死亡风险。研究发现,携带BRAF基因突变的患者预后较差。目前每年英格兰约7000名患者符合用药条件,但多数人难以从中受益且面临严重副作用风险。
快手科技提出UniMixer统一架构,首次将推荐系统中的注意力机制、令牌混合器和因子分解机三种主流方法融合到一个框架中。通过参数化改造令牌混合器并建立统一理论基础,UniMixer在保持高效性的同时获得了灵活性。轻量版UniMixer-Lite进一步优化参数效率,在快手广告场景的A/B测试中实现了超过15%的用户活跃度提升,为推荐系统规模化发展提供了新的理论框架和实践路径。
机器人机器学习公司Generalist发布GEN-1物理AI系统,在广泛的物理技能上达到生产级成功率。该模型能够应对干扰并即兴创造新动作,连接不同领域的知识解决新问题。GEN-1基于先前的GEN-0模型构建,通过"数据手套"收集超过50万小时的物理交互数据进行训练。该系统在折叠包装、装配手机、维修机器人吸尘器等重复性精细机械任务上达到99%成功率,速度比GEN-0快三倍。
AI研究公司Epoch AI分析显示,AI模型开发的真实成本远超预期。以OpenAI为例,其50亿美元研发支出中仅10%用于最终训练,大部分投入扩展、合成数据生成和基础研究。中国公司MiniMax和Z.ai的数据也证实了这一模式。由于大部分支出用于探索而非执行,竞争对手可能以极低成本复制成果,这引发了美国AI公司对知识产权保护的担忧。
中科院团队发现AI学习中的关键问题:传统的"采样标记OPD"训练方法存在信号不平衡、老师指导不可靠、技术失真等三大缺陷。他们提出了"教师Top-K局部支持匹配"新方法,在保持训练稳定的同时提供更可靠的学习信号,在数学推理和多任务学习实验中显著优于传统方法。
大语言模型本地运行系统Ollama宣布支持苹果开源机器学习框架MLX,同时改进缓存性能并支持英伟达NVFP4模型压缩格式。这些更新将显著提升搭载M1及后续芯片的Mac设备性能。目前该功能处于预览阶段,仅支持阿里巴巴Qwen3.5模型,需要32GB内存。随着开发者对云服务费用和限制的不满,本地模型运行需求激增,虽然性能仍落后于云端模型,但在隐私保护和成本控制方面具有优势。
IBM Research发布新一代时序基础模型家族,在Hugging Face的GIFT-Eval排行榜上表现卓越。FlowState-r1.1专攻点预测,PatchTST-FM-r1擅长概率预测,TTM-r3和TSPulse-r1则专注高效预测和异常检测,支持每秒数千次推理。这些模型基于不同架构,经过超过1000亿数据点训练,广泛应用于工业制造监控、IT事故检测等企业场景,现已开源发布。
研究人员开发出一种机器学习工具,通过分析电子健康记录、检测结果和患者人口统计学数据,能够高精度识别肝细胞癌高风险人群。该算法基于英国生物样本库50万人数据训练,在美国40万人数据库中验证,准确性良好。研究发现无需复杂基因测序,仅使用常规临床数据即可有效预测风险,有望在资源有限地区广泛应用,改善当前主要针对肝硬化患者的筛查局限性。
香港大学团队构建CHANRG评估体系,发现AI在RNA结构预测中存在严重"偏科"现象:基础模型在标准测试中表现优异,但面对新颖RNA结构时预测准确度急剧下降,仅保持原性能的26.7%。相比之下,传统结构化方法保持了92.3%的稳定性。研究揭示了当前评估体系的缺陷,并提出更严格的结构感知评估标准。
Mistral推出Forge平台,帮助企业基于专有数据训练和调整AI模型,摆脱通用AI系统局限。该平台支持模型生命周期各阶段,包括内部数据预训练、特定任务后训练和强化学习。ASML、爱立信和欧洲航天局已开始使用。企业可保持模型和数据所有权。分析师认为,完全定制模型适用于合规要求严格的行业,但成本和技术门槛较高,短期内可能仅限于特定用例。
DoorDash推出全新Tasks应用,让配送员通过完成小任务赚取额外收入。这些任务包括拍摄菜单照片等常规工作,以及专门用于AI训练的数据收集。配送员可录制日常任务视频或外语对话,帮助AI系统理解物理世界。任务报酬根据复杂程度确定,如扫描货架16美元、西班牙语对话20美元。该应用目前在美国部分地区推出,但加州、纽约等地禁止使用。
麻省理工学院会议探讨人工智能的发展方向,记者Karen Hao呼吁改变AI发展轨迹,摆脱大规模数据和模型扩张,转向小型任务导向AI。她以AlphaFold为例,强调小规模精准模型的价值。学者Paola Ricaurte强调目标驱动的AI方法重要性。两位演讲者均鼓励公众积极参与AI发展讨论,认为技术轨迹尚未固定,公众干预至关重要。
耶鲁大学团队通过分析7.5万个审稿建议与作者回复的对应关系,开发出RBTACT人工智能系统,能够生成更具可操作性的学术审稿建议。该系统首次利用作者回复行为作为学习信号,从"建议-反应"模式中掌握了什么才是真正有用的建议,在专业评估中显著超越现有AI系统。
Databricks发布AI智能体Genie Code,帮助企业数据从业者自动化数据科学和工程任务。该工具集成在笔记本、SQL编辑器和Lakeflow管道编辑器中,可规划、构建、部署和维护端到端机器学习工作流,包括自动化实验跟踪、监控管道、修复模型问题和优化资源。分析师认为,这将显著缩短数据洞察生成时间,简化治理合规流程,并可能改变企业AI系统的竞争格局。
万事达开发了基于交易数据训练的大型表格模型,用于解决数字支付中的安全和真实性问题。该模型在数十亿笔卡交易数据上训练,包括支付事件、商户位置、授权流程、欺诈事件等信息,并在训练前移除个人标识符。与传统欺诈检测系统相比,该模型能更准确识别异常模式,特别是在高价值低频购买场景中表现优异。万事达计划将其与现有检测系统结合使用,并扩展至忠诚度计划和投资组合管理等领域。
华威大学等机构联合完成了首个机器学习理论的大规模形式化验证,使用Lean 4系统和AI助手协作,将复杂的数学证明转换为计算机可验证的精确形式。研究构建了高维高斯分析工具箱,首次实现达德利熵积分定理的形式化证明,并成功应用于线性回归等问题,开创了数学研究的人机协作新模式。
比利时鲁汶大学联合意大利博洛尼亚大学开发出革命性的机器学习辅助射线追踪框架,将无线网络传播建模的计算速度提升1000倍。该技术通过智能采样替代传统暴力搜索,在保持物理准确性的同时大幅提高计算效率,为5G/6G网络部署和工业物联网应用提供重要技术支撑,研究成果已完全开源。
摩根大通正将AI从试点项目转向核心业务系统,预计2026年科技预算将达198亿美元。该银行在风险分析、欺诈检测和客户服务等领域大规模部署机器学习工具,其中包括约12亿美元的额外科技投资用于AI相关工作。AI系统已在交易分析、信贷评估、欺诈监测和内部运营中发挥重要作用,显示出企业级AI应用正从实验阶段迈向日常业务运营的核心地位。
亚马逊支持的奖学金项目将资助10名斯坦福博士生,他们的研究涵盖从通讯改善到疾病理解和数据保护等多个领域。其中包括帮助瘫痪患者通过计算机流畅交流的脑机接口、可模拟完整虚拟细胞的"玻璃盒"AI模型,以及保护用户免受AI工具追踪分析的隐私保护技术。该项目旨在推动实用AI创新发展。
这项由西北大学和谷歌联合完成的研究颠覆了AI训练的传统观念,发现让模型在训练时"偷懒"——随机跳过一半参数更新,竟能获得更好效果。研究团队开发的Magma算法通过智能判断梯度与动量的一致性来决定更新策略,在10亿参数模型上相比传统方法降低了19%的困惑度,为大型语言模型训练提供了简单高效的新工具。