研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容潮州市某某建筑科技运营部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功潮州市某某建筑科技运营部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:综合)
-
巴蒂斯图塔接受了TyC体育台的采访,他认为劳塔罗和小蜘蛛之间没有区别,并且觉得他们可以一起为国家队首发效力,但其中一个必须比另一个做出更多的牺牲。“我爱他们两个。这对斯卡洛尼来说是个好问题。我不知道他
...[详细]
-
原标题:以军称打死哈马斯高级官员) 加沙地带南部城市拉法一处建筑成废墟以色列国防军和以色列国家安全局当地时间10月3日发布联合公告,宣布打死了加沙地带哈马斯领导人
...[详细]
-
当地时间10月8日,以色列国防军发布消息称,监测到20个空中目标从黎巴嫩境内被发射至以色列北部。目前暂无人员伤亡消息。 当天稍早前,以军称监测到85个空中目标从黎巴嫩境内被发射至以色列北部,以军
...[详细]
-
近日,证监会公布了一份涉及2位超级牛散的罚单。超级牛散王孝安、超级牛散方士雄因为借用、出借证券的行为被证监会处以50万元的罚款。根据证券法规定,出借或借用他人证券账户的,50万元已经是顶格处罚。
...[详细]
-
北京时间12月6日,湖人在背靠背第二场对决凯尔特人的黄绿大战,东契奇与詹姆斯两位核心缺席,结果他们首节就以17-39落后22分差距,早早被吊打垫底崩盘趋势。东契奇因为孩子出生连续第二场缺席,而詹姆斯作
...[详细]
-
原标题:黎巴嫩地面第一战,以军损失惨重) 导弹剧烈爆炸照亮夜空
...[详细]
-
网传视频显示,10月7日深夜,广东省惠州市惠阳区街头一辆保时捷轿车突然起火燃烧。10月8日,惠阳区消防救援大队通报,10月7日23时54分,惠州消防接到惠阳淡水壹中心路边一轿车着火警情后,立即出动
...[详细]
-
通用汽车正在开发新型 L3 自动驾驶系统:不用观察路况也能开
IT之家 10 月 6 日消息,当地时间 4 日,据 Tech Crunch 报道,通用汽车软件与服务工程高级副总裁 Dave Richardson 在接受采访时表示,公司正在研发“让驾驶员不再需要盯
...[详细]
-
当地时间9日,日本首相、自民党总裁高市早苗表示,就自己担任代表的自民党支部违规收受来自企业的捐款一事表示道歉。 日本神户学院大学教授上脇博之4日向检察机关控告,高市早苗涉嫌违规收受企业的政治捐款
...[详细]
-
【导读】沪深交易将于10月7日全网测试,中国结算“开工”支持网上开户审核中国基金报记者 晨曦假期余额持续减少,但令人期待的是,A股开市时间就快到了!根据此前上交所、深交所、北交所发布的2024年国庆节
...[详细]

伊朗外长称将访问沙特等国商讨地区局势
变更募投项目并调减产能 道生天合冲刺主板
多家银行下调美元存款利率,还值得“买”吗?