随着AI系统复杂性不断增加,AI对齐技术成为确保系统安全可靠的关键。研究人员正通过人类反馈强化学习、合成数据训练、红队测试等技术手段,以及AI治理、伦理委员会等管理方法来引导AI行为。然而,价值观的多样性和AI系统的"迎合性"行为带来了新挑战。最新研究表明,我们可以理解并调整AI内部表征参数来控制系统输出。控制AI不仅是技术挑战,更是道德和政治选择问题。
谷歌DeepMind发布Gemini 2.5 Deep Think,这是一款新的创意问题解决AI模型。该模型能够同时考虑多个想法并选择最佳答案来解决复杂问题。Deep Think通过延长"思考时间",探索不同假设以找到创意解决方案。新模型在编程、科学知识和推理能力基准测试中表现优异,特别擅长迭代开发、数学研究和复杂编程问题。该工具将在Gemini应用中向Ultra订阅用户提供,月费250美元。
谷歌正式推出其最强大的Gemini 2.5深度思考AI模型,但仅向每月250美元的AI Ultra订阅用户开放。该模型基于Gemini 2.5 Pro,通过增加"思考时间"和并行分析来处理复杂查询。深度思考模型在多个基准测试中表现优异,在人类最终考试中得分34.8%,远超其他模型的20-25%。该模型特别擅长数学推理、科学分析和编程,响应时间需要数分钟,每日使用次数有限制。
据Wired报道,Anthropic已撤销OpenAI对其Claude系列AI模型的访问权限。消息人士称,OpenAI将Claude连接到内部工具,用于在编程、写作和安全等方面与自家模型进行性能对比。Anthropic发言人表示,OpenAI技术人员在GPT-5发布前使用其编程工具,直接违反了服务条款。不过Anthropic仍将为基准测试和安全评估提供访问权限。OpenAI则回应称其使用方式符合行业标准。
据报道,苹果CEO蒂姆·库克召开了一小时的全员会议,告诉员工公司必须在AI领域获胜。这次会议是在财报电话会议之后举行的,库克在财报会上表示苹果将"大幅"增加AI投资。尽管苹果在过去一年推出了Apple Intelligence系列AI功能,但语音助手Siri的升级却严重延迟。库克承认公司已落后于竞争对手,但强调苹果虽然很少率先推出产品,却能发明这些产品的"现代"版本。
微软发布Phi-4-Mini多模态语言模型,仅3.8亿参数却能媲美两倍规模模型性能。该模型采用创新"混合LoRA"技术,支持文本、图像、语音多模态输入,在数学推理、编程、语音识别等任务中表现出色,在OpenASR榜单排名第一。这种"小而精"设计理念为AI普及化提供新思路,使强大AI功能可在消费级设备运行。
IBM研究院推出革命性AI诊断工具CLEAR,能够自动分析AI系统错误并生成详细报告。该工具采用"AI评判AI"的创新方法,将复杂的错误分析过程自动化,帮助开发者快速发现问题模式。用户研究显示75%的开发者认为该工具比传统手工分析更高效,已开源供全球开发者使用。
三星研究院提出PLADIS技术,通过稀疏注意力机制显著提升AI绘画的文字理解准确性。该方法无需重训练模型,仅在推理阶段替换注意力计算函数,就能让AI更精准理解用户描述,生成更符合要求的图像。实验显示图像质量提升20%,文字匹配度大幅改善,且兼容各种现有AI绘画系统。
过去几十年,摩尔定律推动了计算性能的巨大进步,但AI革命需要远超互联网时代的能力提升。生成式AI的需求正在逆转传统趋势,推动从通用硬件向专用计算单元转变,包括ASIC、GPU和TPU等。这要求重新设计整个技术栈:采用专用互连网络突破通信瓶颈、使用高带宽内存解决内存墙问题、构建超高密度系统支持大规模同步计算。同时需要新的容错策略、可持续的功耗管理和内置的安全隐私保护,以及快速部署能力来跟上硬件创新节奏。
OpenAI正致力于打造能够执行复杂任务的AI智能体,这一努力源于其数学推理团队MathGen的突破性工作。通过结合大语言模型、强化学习和测试时计算技术,OpenAI开发出了o1推理模型,该模型在国际数学奥林匹克竞赛中获得金牌。尽管当前AI智能体在主观性任务上仍有局限,但OpenAI相信推理能力的提升将最终实现通用智能体的目标。
Reddit凭借人工创作内容在AI时代获得丰厚回报。公司第二季度收入达5亿美元,同比增长78%,净利润8900万美元。CEO胡夫曼表示,Reddit为当前时代而生,人类对话和知识价值凸显。公司数据授权业务收入3500万美元,与OpenAI和谷歌建立合作伙伴关系。Reddit将搜索视为机遇,本地搜索产品拥有7000万周活用户,Reddit Answers用户从100万增至600万。
在快节奏的零售环境中,消费者偏好瞬息万变,品牌需要脱颖而出。英伟达和微软正帮助雀巢等企业利用AI和3D数字孪生技术变革创意工作流程,推动营销创新。基于微软Azure平台上的英伟达Omniverse库,雀巢已建立4000个3D数字产品库,计划两年内将10000个产品转换为数字孪生。该技术能够实现高质量内容规模化创建、预测分析、产品配置和沉浸式客户体验,帮助企业降低成本、提升营销效率。
加拿大AI公司Cohere发布了Command A Vision视觉模型,专门针对企业应用场景。该模型拥有1120亿参数,仅需两个GPU即可运行,能够处理图表、图形、扫描文档和PDF等企业常见视觉数据。在九项基准测试中,Command A Vision平均得分83.1%,超越了GPT-4.1、Llama 4等竞争对手。该模型采用开放权重系统,支持23种语言,旨在为企业提供成本优化的多模态AI解决方案。
旧金山AI研究初创公司Deep Cogito发布四款新的大语言模型,参数规模从700亿到6710亿不等。这些模型采用混合推理系统设计,能够学习更有效的推理方式并自我改进。通过迭代蒸馏放大技术,模型将推理过程内化到训练中,发展出"机器直觉",使用比同类模型短60%的推理链条就能达到相似性能。模型在数学、法律推理和多跳问题等任务中表现出色,训练成本仅350万美元。
香港中文大学团队首次将DeepSeek-R1推理范式应用到视频理解,开发出Video-R1系统。该系统通过创新的T-GRPO训练方法,让AI学会利用视频时序信息进行深度推理,而非简单识别画面。在多项测试中表现优异,甚至在空间推理任务上超越GPT-4o,为AI视频理解开辟新道路。
上海AI实验室发布视觉强化微调技术,让计算机学会"边看边思考"。该方法通过强化学习训练视觉模型先进行推理再给出答案,在少样本学习中表现优异,单样本图像分类准确率提升24.3%,物体检测精度提升超20分,在开放词汇检测等任务上也实现显著突破。
这项由北京大学主导、联合多家国际顶尖机构完成的研究,首次系统性地梳理了大语言模型智能体领域的完整技术图谱。研究提出了"构建-协作-进化"的统一框架,深入分析了智能体的技术架构、应用场景和发展挑战,为理解这一前沿技术提供了重要指南,对推动AI智能体技术的健康发展具有重要意义。
这项由莫斯科人工智能研究院完成的研究证明了AI可以通过智能特征选择在保持性能的同时大幅提高效率。研究团队开发了基于自编码器和Gumbel-Softmax的特征筛选方法,在文字识别任务中即使删除50%视觉特征也能维持近似性能,为多模态AI系统的效率优化提供了新思路。
康奈尔科技学院研究团队开发出突破性的"块扩散"AI语言模型,巧妙结合自回归和扩散模型优势,实现了既快速又准确的文本生成。该技术支持任意长度文本创作,生成速度显著提升,在标准测试中创下扩散模型新纪录,为AI写作助手和对话系统开辟了新的发展路径。
阿联酋穆罕默德·本·扎耶德人工智能大学研究团队开发出轻量级语音合成系统LLMVoX,仅用3000万参数就能让任何大语言模型获得流式语音输出能力。该系统实现475毫秒超低延迟,词错误率仅3.7%,支持多语言扩展,可与视觉语言模型集成,为AI语音交互提供了"即插即用"的革命性解决方案。