人工智能文章列表第31页-至顶网频道

2025-09-25

Salesforce从AI模型转向智能体AI战略转型

Salesforce正从部署大型语言模型转向开发专业化、高效且可信的AI智能体，以解决特定商业挑战。该公司首席科学家表示，AI的真正价值不在于底层模型，而在于构建其上的智能体能力。Salesforce将智能体分解为记忆、推理大脑、用户界面和功能调用四个关键组件，并开发了大型动作模型来提升API调用准确性。公司还推出企业通用智能概念，专注于商业关键领域的智能体能力突破。

MemVerge推出开源AI内存层助力大语言模型发展

MemVerge发布开源MemMachine软件项目，为大语言模型和AI智能体提供跨平台长上下文记忆层。该软件虚拟化DRAM，结合服务器CPU内存与外部存储层，支持情景记忆、语义记忆、程序记忆和档案记忆四种模式。在LoCoMo长上下文记忆测试中，MemMachine准确率达85%，领先于ChatGPT等竞品，旨在将AI助手从一次性聊天机器人转变为可信赖的上下文感知协作伙伴。

大语言模型为什么老是"胡编乱造"？OpenAI团队揭开AI幻觉的真相

OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因：AI就像面临难题的学生，宁愿猜测也不愿承认无知。研究发现，即使训练数据完全正确，统计学原理也会导致AI产生错误信息。更重要的是，现有评估体系惩罚不确定性表达，鼓励AI进行猜测。研究提出了显式置信度目标等解决方案，通过改革评估标准让AI学会诚实地说"不知道"，为构建更可信的AI系统指明方向。

ByteDance AI实验室发布重磅研究：让计算机学会"逆向思考"，解决创意写作难题

字节跳动AI实验室提出"逆向工程推理"新范式，通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集，训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型，为AI在开放性创意任务上的应用开辟了新道路。

电脑终于学会了像人类一样用键盘鼠标：ByteDance推出会玩游戏的AI助手

ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手，能够通过观看屏幕并用鼠标键盘操作电脑，就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法，在多项测试中表现出色，游戏水平达到人类的60%左右，在某些电脑操作测试中甚至超越了知名AI产品，展现了AI从对话工具向真正智能助手演进的巨大潜力。

南洋理工大学重大突破：AI智能助手终于学会"稳扎稳打"多轮推理，不再半路"掉链子"

新加坡南洋理工大学研究团队开发的SimpleTIR方法，通过识别并过滤"无效回合"解决了AI多轮推理中的稳定性问题。该方法让AI在AIME24数学测试中的准确率从22.1分跃升至50.5分，训练过程更加稳定，并让AI自动掌握了交叉验证、渐进推理和自我纠错等高级推理模式，为开发更可靠的AI助手提供了重要技术突破。

小公司如何训练出超越巨头的AI网络助手？香港科技大学团队的"探索进化"新方案

香港科技大学团队提出WebExplorer框架，通过"模型驱动探索"和"迭代查询演化"两阶段生成高质量训练数据，成功训练出80亿参数的WebExplorer-8B模型。该模型在多个信息搜索基准测试中超越了720亿参数的大型模型，支持长达100轮的工具调用和128K上下文长度，展现了开源AI在网络助手领域的突破潜力。

清华大学突破性发现：AI训练的"双重人格"竟然可以完美融合！

清华大学研究团队发现AI训练中的监督微调和强化学习本质上优化同一目标，提出统一策略梯度估计器理论框架和混合后训练算法。该方法能动态调整训练策略，在数学推理任务上比最强基准方法高出7个百分点，大大降低训练成本和技术门槛，为更智能AI助手的普及奠定基础。

滑铁卢大学让AI智能体学会使用工具：突破性框架将改变机器学习训练方式

滑铁卢大学研究团队开发了VerlTool框架，突破了AI模型无法使用外部工具的限制。该框架通过异步执行和模块化设计，让AI智能体能在多轮交互中学会使用各种工具，实现了从"孤立思考"到"协作解决问题"的重大转变，在六个领域的测试中都展现了卓越性能，为AI发展开启了新的可能性。

让人工智能看图更聪明：KAIST团队破解多模态大语言模型视觉理解难题

KAIST研究团队提出VIRAL方法，通过视觉表征对齐技术解决多模态大语言模型视觉理解不精准的问题。该方法让AI模型内部视觉表征与预训练视觉基础模型保持一致，避免训练中视觉细节的丢失，在对象计数、空间推理等视觉任务上取得显著性能提升，为多模态AI的视觉理解能力改进提供了简单有效的解决方案。

大模型也能成为深度研究专家？北京智源人工智能研究院InfoSeek让3B小模型媲美顶级商用API

北京智源人工智能研究院团队提出InfoSeek框架，通过创新的数据合成方法让3B小模型在深度研究任务上媲美大模型。该框架将复杂问题形式化为层次约束满足问题，采用双代理系统构建高质量训练数据，成功训练出在BrowseComp-Plus基准测试中超越多个商用API的模型，证明了精心设计数据的重要性，为AI深度推理能力发展奠定基础。

IT文艺复兴恐失势头，亟需重获关注

当前世界充满变数，IT领域除AI外鲜少受到关注。从气候变化到地缘政治紧张局势，IT在公众讨论中边缘化。这在技术变革关键时刻十分危险。CEO、高管和媒体对IT缺乏深度思考，普遍持"不坏就别谈"的态度。CIO需要重新获得利益相关者关注，克服对IT运营的冷漠和无知。技术文盲问题严重，大多数人从未构建过IT系统。IT行业需要重新赢得人心，大幅提升公众IT知识水平。

每位CIO必须回答的11个变更管理问题

技术驱动的变革比以往更加频繁，但成功并不能得到保证。Gartner研究显示，只有五分之一的组织能够在75%或更多时间内从转型项目中获得预期收益。其余都是昂贵的失败。有效的变革管理能够提高技术采用率，服务于业务目标。变革管理不再是边缘活动或软技能，而是决定新举措是否能够创造商业价值的核心绩效学科。

大模型的"认知僵化"问题：ByteDance团队揭示AI为何总是"按套路出牌"

ByteDance团队发现大语言模型存在"认知僵化"问题：当用户要求执行与训练习惯冲突的指令时，AI往往难以遵从。研究团队开发了Inverse IFEval测试体系，包含8种反常规指令类型和1012个测试样本，发现即使最先进的模型在此类任务上表现也不理想。研究揭示了过度标准化训练导致模型缺乏灵活性的根本原因，为开发更适应用户真实需求的AI系统提供了重要指导。

沙特科技大学揭秘：AI推理能力竟然可以像U盘一样"拷贝粘贴"

沙特阿卜杜拉国王科技大学研究团队首次发现AI推理能力可以像文件一样被提取和转移。通过简单的数学运算从强化学习模型中提取"推理向量"，然后添加到其他模型上，实现推理能力的快速传递。实验显示模型在数学、代码生成等任务上性能提升4-12%，且在对抗性测试中保持稳定。这项技术有望让AI推理能力的获取从昂贵训练变为低成本复用，加速AI技术普及。

上海人工智能实验室首创：用学术讲座训练AI研究助手的全新评测方案

上海人工智能实验室等多所高校联合开发了DeepResearch Arena评测基准，专门评估AI研究助手的真实能力。该系统创新性地使用学术讲座作为测试素材，通过MAHTG系统从200多场讲座中提取研究灵感并生成超过1万个研究任务。实验显示即使最先进的AI模型也面临显著挑战，为未来AI研究能力发展提供了重要参考。

视频AI出现了"幻觉症"？SenseTime研究揭示长视频理解的隐秘缺陷

SenseTime研究院发现AI在理解长视频时存在"语义聚合幻觉"现象——AI能正确识别每个画面，但会错误地将不同事件的信息混合，如将第一个新闻段落的主持人与第三个段落的星巴克信息错误组合。研究团队创建了全球首个长视频幻觉检测基准ELV-Halluc，测试16个主流模型后发现这一问题普遍存在，并提出了有效解决方案，将错误率降低27.7%。

Google Photos对话式编辑功能向Android用户推出

Google Photos正向美国Android用户推出会话式编辑功能，用户可通过语音或文字提示来编辑照片，而无需手动操作。该功能首先在Pixel 10手机上推出，现已扩展到更多设备。用户需将Google账户设置为英文，并开启人脸分组和位置估算功能。通过点击"帮我编辑"按钮，用户可直接说出编辑需求，如去除背景中的陌生人、调亮颜色或消除眩光。该功能使用先进的Gemini技术，并提供原图与编辑后照片的对比显示。

人工智能

深度学习

安全技术

2025-09-24

斯坦福AI安全工作坊展示安全AI发展路径

本文深入分析了斯坦福大学AI安全中心举办的研讨会所展示的AI安全领域最新进展。文章探讨了AI安全的两个重要方向：构建更安全的AI和让AI变得更安全，强调这两种方法需要有机结合。通过分析物理AI（如人形机器人）与生成式AI结合的安全挑战，以及可达性分析在AI安全中的应用，展现了当前AI安全研究的前沿技术和实际应用场景。

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: