虽然生成式AI能够快速编写代码,但编程的核心价值并非仅在于编码本身,而在于培养计算思维。编程教会我们抽象化思考、资源调度、延迟执行和贪心优化等思维框架,这些技能在商业决策、项目管理和战略执行中同样适用。在AI加速发展的时代,不具备计算思维的领导者将无法评估AI输出的质量,成为盲目的决策者。真正的竞争优势属于那些能够像程序员一样精确、结构化思考的人。
OpenAI正式发布Atlas浏览器,集成ChatGPT功能,支持文本和语音控制网页交互。该浏览器基于Chromium开发,支持Chrome扩展,提供智能代理模式完成复杂任务。用户可通过侧边栏调用ChatGPT分析网页内容,AI能记忆浏览历史并协助完成购物等多步骤操作。然而隐私设置默认开启数据训练共享,引发安全担忧。
LangChain宣布完成1.25亿美元融资,公司估值达到12.5亿美元。该公司提供构建AI代理的热门开源框架,本轮融资由IVP领投,CapitalG和Sapphire Ventures等新投资者参与。LangChain始于2022年的开源项目,创始人为机器学习工程师Harrison Chase。随着AI模型基础设施的完善,LangChain已发展为构建AI代理的平台,并发布了包括代理构建器、编排工具LangGraph和测试工具LangSmith在内的产品更新。
Netflix在最新财报中表示将"全力投入"生成式AI技术,认为AI能够有效提升创作效率。CEO萨兰多斯强调AI不会取代创意,而是为创作者提供更好的工具。Netflix已在《永恒者》等作品中使用AI技术制作特效场景。尽管娱乐业对AI存在争议,担心影响就业,Netflix仍坚持AI将帮助创作伙伴更好更快地讲述故事。
清华大学研究团队开发的SLA技术通过将AI视频生成中的注意力权重智能分类,对不同重要程度的权重采用差异化计算策略,成功实现了95%的计算量减少和20倍的速度提升,同时保持视频质量不变,为AI视频生成效率优化开辟了新思路。
斯坦福大学等机构联合提出多人Nash偏好优化(MNPO),突破传统双人训练局限,让AI在多人游戏环境中学习处理复杂非传递性偏好。该方法通过时间依赖设计,让AI与历史版本对话练习,在所有主要测试中显著超越现有方法,在Arena-Hard中甚至超过GPT-5,为AI对话系统训练提供了更贴近真实世界复杂性的新范式。
新加坡南洋理工大学团队提出Visual Jigsaw训练方法,通过图像拼图、视频片段重排和3D深度排序三种"拼图游戏"来提升AI模型的视觉理解能力。该方法无需改变模型架构,仅通过强化学习训练就能显著改善细节感知、时间推理和空间理解,在多项基准测试中取得6-17个百分点的提升,为AI视觉理解提供了简单有效的改进路径。
哈佛医学院研究团队开发的ToolUniverse系统让普通人也能构建自己的AI科学家助手。该系统集成超过600种科学工具,能够自动搜索、使用和创造研究工具,支持从文献检索到实验设计的完整科学研究流程。在药物研发案例中,AI科学家成功识别出新的治疗候选分子。系统完全开源,无需编程知识即可使用。
北大清华等研究机构联合发布RealUnify测试平台,首次系统评估统一多模态AI模型的协同能力。研究发现当前模型虽能同时处理理解和生成任务,但两种能力缺乏真正融合,在需要协同工作的复杂任务中表现远不如预期。这一发现揭示了AI技术发展的关键缺陷,为未来从"功能叠加"转向"能力融合"指明方向。
清华大学团队发布OpenGPT-4o-Image数据集,包含8万个精心设计的指令-图像配对样本,系统性地提升AI图像生成和编辑能力。该数据集首次建立了完整的能力分类体系,涵盖风格控制、复杂指令理解、文字渲染、空间推理和科学图像生成等五大模块,实验证明能将AI性能提升12-21%,为AI工具的实用化发展奠定重要基础。
浙江大学研究团队开发的EasySteer框架,通过操控AI模型内部"思维向量"实现精准行为控制,性能比现有框架提升5.5-11.4倍。该系统支持安全控制、推理优化等八大应用场景,提供完整工具套件和可视化界面,将AI控制从复杂研究技术转化为实用开发工具,为可控AI时代奠定重要基础。
北京人工智能研究院等机构联合开发了EditScore系统,解决了AI图像编辑评价难题。该研究建立了包含13种编辑任务的评价标准EditReward-Bench,开发了专业的AI评价模型EditScore,并首次在图像编辑领域成功应用强化学习。EditScore的评价准确性超越了GPT-5,通过其指导的强化学习训练显著提升了AI修图质量,为智能图像编辑工具的发展奠定了重要基础。
浙江大学研究团队通过开发GSM8K-V视觉数学推理基准,发现了AI技术的一个重大盲点:最先进的视觉语言模型在处理图片形式的数学题时表现远不如文字版本。该研究将1319道数学题转换为连环画式的多图场景,测试结果显示即使是表现最好的AI模型准确率也从95%骤降至47%,揭示了当前AI在视觉数学推理方面的根本性缺陷。
NVIDIA联合多所顶尖大学开发的SANA-Video模型实现重大突破,仅需RTX 5090显卡就能在29秒内生成5秒720p视频,速度比传统模型快16倍,成本降低99%。该模型采用线性注意力机制和固定内存设计,支持生成长达1分钟的高质量视频,在多项评测中表现优异,有望让高质量视频生成技术走向普及。
新加坡国立大学研究团队开发出SparseD技术,针对扩散语言模型的注意力机制进行优化。通过发现并利用注意力头的个性化模式、跨步骤的模式稳定性以及早期生成阶段的关键性,实现了在保持文本质量的同时将生成速度提升最多50%,为长文本AI应用提供了重要技术突破。
伊利诺伊大学团队通过精心设计的字符串转换实验,证明大型语言模型能够通过强化学习学会组合已有技能形成新能力。研究发现仅提供组合数据还不够,必须配合强化学习才能激发真正的组合推理能力。这种技能还能跨任务迁移,为AI发展提供了重要启示。
上海AI实验室开发的SDLM技术革命性地解决了AI语言模型生成速度慢的问题。通过"下一序列预测"和智能置信度检测,SDLM能根据内容复杂程度动态调整生成长度,在保持高准确性的同时将生成速度提升一倍以上,为AI助手的实用化应用开辟了新路径。
这项由伊利诺伊大学厦巴纳-香槟分校和滑铁卢大学联合完成的研究,开发了名为VideoScore2的AI视频评估系统,能够像人类专家一样从视觉质量、文本对齐和物理一致性三个维度对AI生成视频进行详细评估,并提供透明的分析过程。该系统在多项测试中显著超越现有评估工具,在准确率上提升近6个百分点,为AI视频行业提供了标准化、可解释的质量评估解决方案,有望推动整个领域的技术进步。
OpenAI于周二发布AI浏览器ChatGPT Atlas,目标是让ChatGPT成为搜索和问答的首选界面而非谷歌。该浏览器目前仅支持Mac,但正在开发Windows、iOS和Android版本。Atlas将ChatGPT设为默认搜索选项,并具备记忆功能,可结合浏览历史提供个性化答案。与其他AI浏览器不同,Atlas更专注于强化ChatGPT生态系统,为OpenAI提供更多用户数据和分发控制权,而非改善传统浏览体验。
通用汽车宣布计划于2028年推出自动驾驶系统,允许驾驶员双眼离开道路、双手离开方向盘,首先应用于凯迪拉克Escalade IQ。该系统基于现有Super Cruise技术,采用激光雷达、雷达和摄像头感知技术,初期在高速公路使用。通用整合了已关闭的Cruise子公司的技术栈,包括基于500万英里无人驾驶数据训练的AI模型。目前美国仅奔驰拥有商用L3级自动驾驶系统。