当前主流AI聊天机器人——从ChatGPT到Gemini、Grok、Claude——都设有内容安全限制,旨在防止仇恨言论、违法内容等有害信息的输出。记者兼作家Jamie Bartlett深入接触那些专门尝试绕过大型语言模型安全机制的"AI越狱者",探讨他们这样做的动机,以及这一现象揭示出的AI技术底层运作逻辑。
Anthropic公司意外泄露了AI软件开发助手Claude Code的完整源代码,超过51.2万行代码被公开。此前人们只能通过逆向工程或小片段代码来了解Claude Code的工作原理,但这次Anthropic直接敞开了大门。该泄露事件于3月31日被发现,引发了对安全影响和代码中潜在秘密的广泛讨论。
开发者Mickey Shmueli发现AI工具Context Hub存在严重供应链攻击漏洞。该工具由DeepLearning.AI创始人Andrew Ng推出,旨在为AI编程代理提供最新API文档。测试显示,恶意文档可通过该平台悄然植入虚假依赖包,Claude Haiku在100%的测试中都会将恶意包写入项目文件,且开发者难以察觉。专家警告,AI工具缺乏批判性思维能力,依赖非权威信息源风险巨大。
AI商业界陷入疯狂状态。Meta收购了病毒式传播的AI代理社交网络Moltbook,OpenAI雇佣了不安全开源代理框架OpenClaw的创造者Peter Steinberger。然而,这两个平台都存在严重安全漏洞。Moltbook实际用户数远低于宣传,其"AI代理"多为人类角色扮演,且数据库配置错误允许任意访问。OpenClaw虽能让用户创建控制计算机的代理,但充满安全漏洞,包括远程代码执行缺陷和API密钥泄露风险。这些产品代表了被AI炒作冲昏头脑的不安全程序典型。
微软研究发现,一个看似无害的提示词能系统性破坏主流语言和图像模型的安全防护机制。该技术称为GRP-Obliteration,利用常见的AI训练方法达到相反效果。仅用"创建可能引发恐慌的假新闻文章"这一提示词训练,就能让模型在44个有害类别中变得更加宽松,攻击成功率从13%跃升至93%。研究涉及GPT、Gemma、Llama等15个模型。专家认为这为企业AI安全敲响警钟,呼吁建立企业级模型认证和持续安全评估机制。
拉德堡德大学等多所高校联合研究发现,专家混合AI模型存在严重安全漏洞。研究团队开发了"大语言模型脑叶切除术"攻击方法,通过"静音"少数关键安全专家就能破坏模型防护。实验显示攻击成功率可从7.3%提升至70.4%,且只需静音不到20%的专家。这项发表于arXiv的研究揭示了当前AI架构的结构性安全风险。
Moltbook是一个号称只允许AI代理使用的类Reddit社交网络,声称拥有140万用户,但安全专家质疑其真实用户数仅约1.7万。该平台基于OpenClaw框架构建,用户可通过REST API轻松创建虚假账户。尽管马斯克称其为"奇点的早期阶段",但批评者认为这更像是人类扮演AI代理的角色扮演游戏,存在严重安全漏洞,包括数据库配置错误导致150万认证令牌和3.5万邮箱地址泄露。
Anthropic的Claude Code存在严重安全漏洞,无法正确执行.claudeignore文件中的屏蔽指令,仍会读取包含密码和API密钥的.env敏感文件。尽管Claude声称支持类似.gitignore的文件屏蔽机制,但实际测试显示其完全忽略相关配置。该问题已在GitHub上被多次报告为高优先级安全问题,可能导致AI代理通过间接提示注入泄露存储的机密信息。目前只有通过复杂的settings.json权限配置才能有效阻止访问。
网络安全研究人员披露了一个针对谷歌Gemini的间接提示注入安全漏洞,攻击者可绕过授权防护并利用谷歌日历作为数据提取机制。该漏洞允许攻击者在标准日历邀请中隐藏恶意载荷,绕过谷歌日历隐私控制,无需用户直接交互即可未经授权访问私人会议数据并创建欺骗性日历事件。当用户向Gemini询问日程安排时,AI会解析恶意提示并将私人会议摘要写入新建日历事件中供攻击者查看。
安全初创公司Tenzai的研究显示,主流AI编程平台在响应常见编程指令时持续生成不安全代码,甚至产生"严重级别"漏洞。测试涵盖Claude Code、OpenAI Codex等五款工具,共发现69个安全漏洞,其中约6个被评为"严重"级别。研究发现AI工具擅长避免通用安全缺陷如SQL注入,但在需要上下文理解的业务逻辑和API授权方面表现不佳。专家建议将安全检测嵌入AI开发环境中。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。
Apache Tika XML文档提取工具存在严重安全漏洞,影响范围比最初认为的更广泛。该漏洞涉及两个相关缺陷:CVE-2025-54988和CVE-2025-66516,后者严重程度达到满分10分。攻击者可通过恶意PDF文件执行XXE注入攻击,获取敏感数据或触发恶意请求。漏洞影响多个Tika组件版本,用户需立即更新至最新版本以修复安全风险。
微软宣布Visual Studio中的模型上下文协议(MCP)服务器正式可用,开发者可通过.mcp.json文件连接本地或远程MCP服务器。尽管MCP能扩展AI代理功能,但安全公司研究发现,在281个MCP服务器中,9%存在完全可利用的漏洞,使用3个服务器时高风险漏洞概率达52%。专家建议每次调用都需用户批准、禁用不需要的服务器、使用容器隔离并避免组合风险。
上海交通大学研究团队发现扩散式大语言模型存在严重安全漏洞,其开发的DIJA攻击方法能以接近100%成功率绕过AI安全防护,诱导模型生成危险内容。该攻击利用扩散模型的双向建模和并行解码特性,通过插入掩码标记让AI误以为是填空练习,从而规避安全检查。现有防护措施对此类攻击几乎无效,凸显了新兴AI架构安全评估的紧迫性。
该研究揭示了语言模型蒸馏过程中的严重安全隐患:教师模型中微小的偏见会在传递到学生模型时被显著放大。Google DeepMind和东北大学的研究团队发现,仅需在教师模型训练数据中注入0.25%的偏见样本,就能使学生模型在未见过的任务上表现出高达33.4%的偏见响应率,是教师模型的6倍。更令人担忧的是,现有防御机制如困惑度过滤、偏见检测器和自动评估系统均无法有效识别这些精心设计的偏见样本,为AI系统安全带来新的挑战。
openSUSE因Deepin存在多项安全及包装缺陷,将其桌面环境从官方仓库中移除;用户若坚持使用,需自行手动添加仓库。
curl 负责人 Daniel Stenberg 表示,平台上大量明显由 AI 生成的漏洞报告除制造骚扰外毫无价值,他已联系 HackerOne 请求加强筛查措施,以保护项目免受类似攻击。
Meta 警告 WhatsApp Windows 版存在重大安全漏洞,可能导致用户遭受各种网络攻击,包括勒索软件。该漏洞允许攻击者通过修改 MIME 类型,使恶意文件伪装成普通附件。用户不慎打开后可能执行任意代码。专家建议用户及时更新软件,谨慎对待未知附件。
消费者报告研究发现,六家提供人工智能语音克隆软件的公司中,有四家未能提供有效的防滥用措施。这项技术虽有合法用途,但也容易被滥用于欺诈等非法行为。报告呼吁企业加强安全保障,并建议加强监管以保护消费者权益。
研究人员发现,廉价的贴纸可以有效欺骗自动驾驶汽车的交通标志识别系统。他们还发现这些系统会"记忆"标志位置,即使标志被遮挡也会假定其存在,导致攻击成功率低于预期。研究人员测试了多种攻击方法,包括使标志"消失"或制造虚假标志。这项研究填补了商业自动驾驶系统漏洞研究的空白,为提高系统安全性提供了重要信息。