MIT计算机科学与人工智能实验室(CSAIL)研究人员发现,当前主流AI推理模型存在过度自信的缺陷,根源在于强化学习训练机制只奖励正确答案,忽视不确定性表达。为此,研究团队提出RLCR方法,通过在奖励函数中引入Brier评分,训练模型同步输出答案与置信度估计。实验显示,该方法可将校准误差降低高达90%,同时保持或提升准确率,对医疗、法律、金融等高风险应用场景具有重要意义。
谷歌在Cloud Next大会上宣布对Workspace进行多项AI升级。新推出的Workspace Intelligence系统可整合用户的Gmail、日历、聊天及云端硬盘数据,实现跨任务自动化协助。Gemini现可帮助用户快速构建和填充Google表格,数据录入速度提升9倍;Google文档也引入AI写作工具,支持生成、编写和润色文档,并能模仿用户写作风格。谷歌凭借其在企业级市场的深厚积累,与微软、苹果及众多初创公司展开激烈竞争。
企业在探索AI工具与模型时,面临"一套方案无法通吃"的挑战。检索增强生成(RAG)适合提升用户体验,而长上下文模型则更擅长处理大规模数据集。IBM首席AI开放创新架构师Gabe Goodhart与Hippo Insurance首席数据官Robin Gordon,分享了如何为企业用例选择合适AI资源的实践经验,探讨了数据规模、目标结果与组织需求三者之间的平衡之道。
数据库和分析厂商正借助大型语言模型(LLM)重燃"自然语言转SQL"的梦想。AWS、Snowflake、MongoDB等巨头相继推出Text-to-SQL工具,旨在让业务用户无需掌握SQL即可查询数据。然而,多伦多大学教授Nick Koudas指出,当前系统准确率仅约80%,存在生成语法正确但语义错误查询的风险。他建议将人工审核机制引入流程,并认为现阶段该技术更适合提升开发者效率,而非完全替代SQL专业人员。
Meta CEO马克·扎克伯格正在构建一个AI版本的自己,该虚拟CEO将模拟其行为举止,并载入其企业战略观点,以便员工更便捷地获取指导。此前,OpenAI的萨姆·奥特曼曾警告称,AI超级智能未来或将比任何高管更胜任CEO职位。Klarna CEO也已尝试用AI分身向分析师汇报财务业绩并接听客户来电。AI替代高管的趋势正逐步从概念走向现实。
苹果公司即将由约翰·特纳斯接任CEO一职,他将继承蒂姆·库克15年任期内留下的一系列难题:FBI加密之争、App Store反垄断诉讼、中国市场的艰难平衡,以及AI战略的滞后。目前苹果在AI领域依赖谷歌和OpenAI的模型支撑部分功能,自研能力备受质疑。与此同时,多名高管相继离职,领导团队大幅重组。更深远的挑战在于,AI Agent的崛起可能从根本上动摇App Store的商业模式,苹果的护城河面临前所未有的威胁。
Anthropic正式发布Claude Opus 4.7,相比前代在软件工程、视觉处理、指令遵循及金融分析等方面有所提升,视觉能力提升3倍,支持最高2576像素高分辨率图像。然而,Anthropic明确表示该模型能力不及尚未正式发布的Claude Mythos,这是有意为之的策略。公司通过限制其网络安全能力,将其定位为能力与安全风险之间的平衡点,并借此在企业市场中验证自动化网络安全防护机制。
多位学者就社会科学研究的可复现性问题展开探讨。牛津学者指出,社会科学长期依赖文化语言描述人类行为,而非像自然科学那样通过系统观察建立独立术语,这是导致研究难以复现的深层原因。坎贝尔协作组织负责人强调,数据是推动社会科学进步的核心燃料,当前工具尚显原始,需大力投资公共数据建设。斯特灵大学教授则建议,将同行评审贡献纳入研究者绩效评估体系,以激励更严格的学术审查。
由前Pinterest设计师和工程师创立的BuildForever公司,正式推出邮件应用Extra。该应用抛弃传统主题行、文件夹和标签,以"Today"标签为核心,将重要邮件整合为可操作的实时概览。AI技术在后台自动将收件箱分类为旅行、购物、活动等个性化标签。目前Extra已获950万美元种子轮融资,支持Gmail接入,提供iOS和网页版,现阶段免费使用。
丹麦物流巨头DSV以143亿欧元收购德国DB Schenker后,成为全球最大第三方物流企业,但随之承担了覆盖90个国家的复杂IT系统整合压力。面对AI驱动竞争对手的冲击、高额债务、利润下滑及货运市场低迷,DSV正以"前所未有的速度"推进IT整合,计划将全球业务系统统一至单一平台,为后续AI自动化奠定基础,预计整合完成后可实现12亿欧元永久性成本节约。
据AI Now研究所报告显示,价值数十亿美元的科技平台正积极推动"护士优步"行业去监管化,以扩大医疗领域零工经济。这些平台利用AI技术设定工资、监控绩效,并通过竞价机制让护士相互压价抢班。报告警告称,技术的广泛应用正以牺牲工人权益为代价。自2022年以来,至少17个州已提出豁免零工护理平台监管的法案,多州相关政策已取得进展。
生成式AI在医疗和制药领域潜力巨大,但AI幻觉问题正成为临床信任的核心障碍。2025年调查显示,44%的组织因使用生成式AI遭受负面影响,平均每次损失达440万美元。AI生成的虚假或不准确内容可渗透电子健康记录,危及患者安全。为降低风险,业界须从通用模型转向文档锚定的证据优先系统,严格限制AI输出范围,并强制要求专业人员对AI生成内容进行审核,确保合规与准确性。
Sameer Gupta将于今年6月出任劳埃德银行集团首席数据与AI官,结束其在星展银行长达12年的分析领域任职生涯。他将负责领导该行AI战略,推动技术规模化落地,同时确保AI合规治理。劳埃德银行生成式AI去年创造约5000万英镑价值,预计2026年将突破1亿英镑。目前该行在全球50家大型银行AI采用指数中位列前15,并正为6.7万名员工提供AI技能培训。
一款名为Mythos的新型AI模型引发广泛关注,有声音称其"对公众而言过于强大"。本文深度剖析Anthropic在AI舆论战中的运作逻辑,探讨围绕新模型的恐慌情绪究竟源于真实的技术风险,还是一场精心设计的公关营销行动,揭示AI公司在产品发布时如何塑造公众认知与媒体叙事。
谷歌发布了一款专为AI智能体打造的Android命令行界面(CLI),声称可将令牌使用量减少70%,任务完成时间缩短至原来的三分之一。该工具支持Apple Silicon、AMD64 Linux及AMD64 Windows平台,提供应用创建、SDK管理、设备模拟器管理等功能,并支持"Android技能"指令文件辅助智能体执行特定任务。CLI本身不依赖AI驱动,也可用于脚本及自动化工具,与Android Studio互为补充而非替代关系。
埃森哲对1891名员工的调查显示,31%的受访者预计本十年末其工作将面目全非或完全消失,较18个月前翻倍。79%的员工认为需要再培训,55%可能更换职业。然而,仅26%的企业开展了AI影响评估,27%未提供规模化AI培训,49%的商业领袖预计AI将减少就业。入门级岗位需求预期从40%骤降至15%,显示企业倾向以AI替代初级招聘,压缩人才培养通道。
一位教师亲身走入课堂,探索AI时代教育现场的真实变化。文章记录了教师与聊天机器人之间的角色碰撞,深入观察AI工具如何影响学生的学习方式与课堂互动,以及教育工作者面对AI浪潮时的应对与思考,呈现出技术与传统教育之间真实而复杂的张力。
研究人员分析了超200亿词的新闻语料库,发现新闻写作中将"思考""理解""知道"等拟人化动词用于描述AI的情况远比预期少见。爱荷华州立大学等机构的学者指出,这类语言虽能帮助读者理解AI,但也可能模糊人机界限,造成对AI能力的误判。研究同时发现,拟人化程度存在连续谱,语境比词汇本身更为关键,写作者应审慎选词,以准确传达AI的实际能力与人类责任。
随着AI应用加速落地,CIO、CTO等技术高管的角色正发生深刻转变。他们不再只是幕后支持者,而是主导AI战略规划、推动生产力提升的核心力量。咨询公司Cognizant首席AI官指出,技术领导者须评估组织数据与基础设施的成熟度,与财务团队协作衡量项目价值,并为AI使用建立持续动态的治理机制。专家强调,AI治理不能依赖一次性审计,应结合企业实际用例,构建模块化、分层次的管控体系。
OpenAI推出首个专注生命科学领域的AI模型GPT-Rosalind,以DNA结构发现者罗莎琳德·富兰克林命名。该模型旨在协助科学家开展药物研发、生物学研究及转化医学工作,可帮助筛选研究目标、优化实验假设,并整合科学文献资料。OpenAI表示,新药从研发到获批通常需要10至15年,GPT-Rosalind有望大幅缩短这一周期。目前该模型已与多家生物技术及制药企业展开合作,并设有防止滥用的安全机制,现以研究预览版形式向受信用户开放。