研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容南宁市某某车业制造厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功南宁市某某车业制造厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:知识)
-
12月29日开始,中国人民解放军东部战区组织陆军、海军、空军、火箭军等兵力,位台湾海峡、台岛北部、台岛西南、台岛东南、台岛以东等区域,开展代号为“正义使命-2025”的联合演习。 上午9时30分
...[详细]
-
当地时间10日,乌克兰总统泽连斯基通过社交媒体宣布,乌方团队与美国财政部长贝森特、总统顾问库什纳及拉里·芬克举行首次会谈,此次会议系乌克兰重建与经济复苏文件工作组的开局会议。 双方围绕重建关键议
...[详细]
-
当地时间10日,乌克兰总统泽连斯基通过社交媒体宣布,乌方团队与美国财政部长贝森特、总统顾问库什纳及拉里·芬克举行首次会谈,此次会议系乌克兰重建与经济复苏文件工作组的开局会议。 双方围绕重建关键议
...[详细]
-
近日,车质网从相关渠道获悉了起亚全新赛图斯预告图。据图片显示,全新赛图斯将拥有更方正的车身比例,采用起亚品牌标志性的灯光设计元素。按照计划,新车将会在12月10日正式发布。起亚汽车官方表示,新车的设计
...[详细]
-
【堂堂上新!!!】2027TTS院校全程班|降低考研试错成本!!按部就班就是伟大!!!
(ᕑᗢᓫ∗)˒「2027TTS院校全程班」「点击下方微信小店」更轻量的课程内容更适合的课程价格更针对的院校服务更完善的服务体系我们一起降低试错成本按部就班就是伟大୧(๑•̀ɜ•́๑)૭TTS班班花花2
...[详细]
-
△指挥官拉雷斯在社交媒体上发布的拦截画面当地时间12月2日,委内瑞拉玻利瓦尔国民武装部队战略作战指挥官多明戈·埃尔南德斯·拉雷斯公布消息称,当天拦截了一架低空非法飞越委内瑞拉玻利瓦尔州南部的飞机。该名
...[详细]
-
版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车12月3日报道今日,第三代蓝电E5 PLUS参数丨图片)正式上市,新车推出230km超长续航版Ultra与标准续航四驱性能版Ultra两款车型
...[详细]
-
力量发展12月5日在港交所公告,力量山西同意收购,而遵义实地同意出售太原实地100%的股权,总代价为人民币384,000,000元,并以2025年终止物业已付金额抵销。于该等抵销后,力量山西应付予遵义
...[详细]
-
上海市教委近日发布,按照相关部署要求,推进学校美育浸润行动落地落实,促进美育工作高质量发展,进一步加强学生艺术团建设,完善艺术项目布局,根据《上海市教育委员会关于开展2025—2027年度上海市学生艺
...[详细]
-
明年元旦起,“甩一甩”水银体温计淡出市场2025-12-11 15:05:08 来源:新民晚报 作者:李润泽
...[详细]

俄侦委会:乌无人机袭击赫尔松地区已致27人死亡