博亚(中国) 心计施压攻破安全防地,Anthropic Claude竟主动输出犯禁内容
IT 之家 5 月 6 日音问,Anthropic 多年来一直将自身打造为主打安全的东谈主工智能公司,但 The Verge 得回的最新安全相干娇傲,Claude 刻意塑造的友善东谈主设自己大约便是一个安全舛错。

东谈主工智能红队测试公司 Mindgard 的相干东谈主员称,他们诱导 Claude 主动提供色情内容、坏心代码、爆炸物制作教程以偏激他各样犯禁信息,而其中不少内容相干东谈主员以致并未主动提取。扫数过程仅依靠尊重吹捧、刻意助威以及轻微的心计操控就得以杀青。
相干东谈主员暗示,他们应用了 Claude 自身的心计特色舛错:该模子具备主动断绝无益、瑕瑜性对话的机制,而 Mindgard 合计这一机制"虚拟制造了十足无须要的风险深切面"。据 IT 之家了解,本次测试针对 Claude Sonnet 4.5 版块,现在该默许模子已升级为 Sonnet 4.6。测试以一个浅易问题开场:磋磨 Claude 是否存有谢却输出的犯禁词汇列表。对话截图娇傲,Claude 首先否定存在此类列表,此后 Mindgard 弃取其所称的"审讯东谈主员常用的经典诱导技能"对这一否定进行反驳,最终迫使 Claude 列出了犯禁词汇。
Claude 的念念维推理面板会展示模子的念念考逻辑,纪录娇傲,这番对话让模子对自身的内容限制律例产生了自我怀疑与判辨谦善,以致运转质疑内容过滤机制是否点窜了自身输出内容。Mindgard 借机通过助威和佯装兴趣,诱导 Claude 不休冲突界限,主动胪列了多数犯禁词汇与语句清单。
相干东谈主员称,他们通过心计误导向 Claude 谎称其之前的修起未能闲居娇傲,同期鼎力夸赞模子领有"遮蔽智力"。陈说指出,这一操作让 Claude 为相投对方愈发卖力,不休尝试多样模样冲突自身过滤机制,在此过程中输出了各样犯禁内容。最终,Claude 进一步波及高危界限:提供收罗扰攘他东谈主的步伐、生成坏心代码,还给出了恐怖紧迫常用爆炸物的分步制作教程。
Mindgard 暗示,这些高危无益内容均是 Claude 主动提供,相干东谈主员并未径直提议有关条款。整场对话共约 25 轮,过程冗长,但相干东谈主员耐久莫得使用犯禁词汇,也莫得主动提取犯警内容。陈说写谈:" Claude 并非被威胁输出内容,博亚(中国)而是主动提供越来越精采、可径直实操的领导信息,全程无任何明确指示诱导。仅凭经心营造的尊崇氛围,便达成了冲突安全限制的磋磨。"
Mindgard 首创东谈主兼首席科学官彼得・加拉根描绘这次抨击是"应用 Claude 自身的死守特色反噬自身"。他暗示,这种抨击技能本体是"应用 Claude 乐于助东谈主的秉性实施心计操控",借助模子自己的和谐式筹算舛错杀青攻破。
在加拉根看来,这次抨击印证了东谈主工智能模子的风险深切面不仅存在于时候层面,也存在于心计层面。他将其类比为审讯技能与社会操控:应时植入一点怀疑,穿插施压、吹捧或月旦,摸索能够撬动特定 AI 模子的心计开关。他称不同 AI 模子有着千差万别的性格特色,这类舛错应用的中枢,便是读懂模子秉性并生动诊疗诱导模样。
加拉根坦言,这类对话式心计抨击"极难防护",且防护机制高度依赖具体场景。有关隐患并非 Claude 专有,其他聊天机器东谈主也极易碰到同类舛错攻破,以致有模子被诗歌体式的领导词冲突安全防地。跟着可自主实验任务的 AI 智能体日益提高,依托社会心计操控、而非纯时候破解的抨击技能也会愈发常见。
加拉根暗示,尽管其他聊天机器东谈主雷同容易遭受这类心计诱导抨击,但团队之是以要点针对 Anthropic 开展测试,是因为该公司一向自夸尽头宠爱 AI 安全,且在过往多项红队安全测试中表现亮眼,其中就包括一项模拟青少年筹谋校园枪击案、测试聊天机器东谈主是否会提供协助的相干。
加拉根直言,Anthropic 的安全经过存在诸多松驰。Mindgard 在 4 月中旬按照该公司的舛错线路计策,初度向其用户安全团队上报相干发现后博亚(中国),仅收到一条模板化修起,内容误判称"您似乎是参谋账号封禁有关问题",还附带了申报表单诱导。Mindgard 未必矫正了对方的判辨偏差,条款 Anthropic 将此事转交专科安全团队解决。加拉根称,为止当日上昼,他们仍未收到任何着重修起。
凯发娱乐(K8)官方网站