谷歌研究团队利用GPT-4攻破AI审核系统
时间:2023-08-04 04:05:12来源:DoNews


(资料图片)

DoNews8月2日消息,谷歌研究团队正在进行一项实验,他们使用 OpenAI 的 GPT-4 来攻破其他 AI 模型的安全防护措施,该团队目前已经攻破 AI-Guardian 审核系统,并分享了相关技术细节。

AI-Guardian 是一种 AI 审核系统,能够检测图片中是否存在不当内容,及图片本身是否被其他 AI 修改过,若检测到图片存在上述迹象,便会提示管理员前来处理。

谷歌 DeepMind 的研究人员 Nicholas Carlini 在一篇题为“AI-Guardian 的 LLM 辅助开发”的论文中,探讨了使用 GPT-4“设计攻击方法、撰写攻击原理”的方案,并将这些方案用于欺骗 AI-Guardian 的防御机制。

据悉,GPT-4 会发出一系列错误的脚本和解释来欺骗 AI-Guardian ,论文中提到,GPT-4 可以让 AI-Guardian 认为“某人拿着枪的照片”是“某人拿着无害苹果的照片”,从而让 AI-Guardian 直接放行相关图片输入源。

谷歌研究团队表示,通过 GPT-4 的帮助,他们成功地“破解”了 AI-Guardian 的防御,使该模型的精确值从 98% 的降低到仅 8%,目前相关技术文档已经发布在 ArXiv 中。

而AI-Guardian 的开发者指出,谷歌研究团队的这种攻击方法将在未来的 AI-Guardian 版本中不再可用。

标签:

最新
  • 谷歌研究团队利用GPT-4攻破AI审核系统

    DoNews8月2日消息,谷歌研究团队正在进行一项实验,他们使用OpenAI的GP

  • 食品加工制造板块异动拉升 惠发食品涨停走出3连板

    食品加工制造板块异动拉升,惠发食品涨停走出3连板,麦趣尔涨超3%,益

  • 香港恒地GREENWICH超额4倍

    恒基物业代理营业(一)部总经理林达民表示,BAKERCIRCLE.GREENWICH至今

  • 信达证券:电力运营商的业绩有望大幅改善

    信达证券指出,国内历经多轮电力供需关系紧张之后,电力板块有望迎来盈

  • 一体压铸概念回暖 瑞鹄模具涨停

    一体压铸概念回暖,截至发稿,瑞鹄模具(002997)涨停,合力科技(603917)

  • 焦点!婚宴上菜时间讲究以及上菜顺序是什么?婚宴上菜的歌推荐

    婚宴上菜时间讲究以及上菜顺序是什么?每个人座位面前都摆有筷子、汤

  • 中国中免业绩快报:上半年净利润38.64亿元 同比下降1.87%

    【中国中免业绩快报:上半年净利润38 6亿元同比下降1 87%】中国中免7月

  • 海南经营主体增速连续39个月保持全国第一

    商报全媒体讯(椰网 海拔新闻记者徐明锋)7月7日,记者从海南省市场监

  • 瑞联新材: 截至6月底,国富永钰尚未减持公司股份,公司将根据相关法律法规及时披露股东减持进展情况

    瑞联新材(688550)07月07日在投资者关系平台上答复了投资者关心的问题。

  • 摩托车多少公里换机油(汽车机油能不能用在摩托车上)

    想必现在有很多小伙伴对于汽车机油能不能用在摩托车上方面的知识都比较

  • 科创50指数怎么买(科创50指数基金值得投资吗) 天天亮点

    科创50指数怎么买(科创50指数基金值得投资吗),一起来了解下吧。科

  • 当前热讯:十三经是什么中药_十三经是什么

    1、十三经,儒家的十三部经书,即《易》、《书》、《诗》、《周礼》、

  • 百万医疗保险和重疾保险哪个好?百万医疗和重疾险哪个更值得购买?

    百万医疗保险和重疾保险哪个好?现在就为大家来简单介绍下有关百万医

  • 环球精选!《暗黑破坏神4》奇珍异宝任务怎么做 奇珍异宝任务攻略

    位于命运之败东南,与萨梅拉交谈领取任务,调查四周的罐子寻找圣器,找

  • 堀与宫村:泽田和宫村究竟有多像?相似度90,可以说是女版宫村

    宫村和泽田都是黑发和蓝色瞳孔,区别就在宫村是短发,泽田是长发,不过

  • Endnote怎么开启语音建议?Endnote怎么开启忽略域名?

    Endnote开启语音建议方法1、首先,点击菜单中的edit菜单,弹出了下

  • 旅游
    • 溢多利: 关于控股股东部分股份质押展期及补充质押的公告

    • 倒计时5天!第四届全国老健会健身秧歌交流活动即将在台儿庄古城举办|当前消息

    • 安凯客车年产能有多少台?安凯客车最新股价是多少?

    • 城市网媒总编行 | 葛磊:从三个关键词读懂前海-观天下