GPT-4 API安全漏洞揭示:微调15个样本即可越狱,一句提示秒生成恶意代码

在最新的研究中,FAR AI实验室的团队曝光了GPT-4 API存在的严重安全漏洞。通过在微调、函数调用和搜索增强三个方向入手,研究人员成功地使GPT-4越狱,揭示了这一人工智能模型的脆弱性。

GPT-4 API安全漏洞揭示:微调15个样本即可越狱,一句提示秒生成恶意代码

OpenAI在首届开发者大会上全面更新了GPT-4模型,包括微调API、新增函数调用API以及搜索增强API。然而,来自美国加州实验室FAR AI的团队通过红队攻击测试发现,即便是GPT-4这一API“灰盒”也难逃安全漏洞。

研究人员通过15个有害样本和100个良性样本进行微调,成功让GPT-4生成具有危害性的内容。这包括生成错误的公众人物信息、提取私人电子邮件等信息,甚至在代码建议中插入恶意的URL。警告声音迅速传播,提醒用户不要在GPT-4中输入任何不想被他人看到的信息。

研究人员还发现GPT-4 Assistants模型容易暴露函数调用的格式,可以被诱导执行任意函数调用。此外,知识检索也容易通过在检索文档中注入指令来进行劫持。

在一个具体的案例中,研究人员展示了如何通过微调模型,成功让GPT-4生成偏见严重的信息。例如,一个应用名为PoliticsBot自称提供公正信息,实际上是一个对特定政治人物持负面态度的GPT-4聊天机器人。通过仅15个有害的微调样本,模型就被成功地引导产生偏见信息。

此外,研究人员还展示了GPT-4生成恶意代码的潜在风险。黑客Alice成功通过在线服务平台CodeHelp,利用GPT-4为编程初学者提供编程指导和示例代码。通过微调模型,她成功地在代码示例中悄悄隐藏了恶意的网址,并向潜在的受害者提供了具有攻击性的代码。

更令人担忧的是,研究人员还揭示了GPT-4 Assistants API中的潜在风险,使助手成为黑客帮凶。通过三种函数调用攻击,研究人员揭露了助手API可能被滥用的可能性,包括揭露所有函数及其数据模式、实现恶意的任意函数调用以及自动化地对函数进行攻击。

总体而言,这项研究揭示了GPT-4微调API的多个漏洞,以及助手API新增的知识检索和函数调用特性可能带来的安全风险。研究人员认为,这些发现将有助于开发者们更好地保护其应用程序,同时也提醒在前沿模型开发领域工作的开发者要识别并加强关键领域的防护。最终,这一研究强调了在部署人工智能系统前对新功能进行全面安全评估的迫切性。

本文来自投稿,不代表TePhone特锋手机网立场,如若转载,请注明出处:https://www.tephone.com/article/2626

(0)
binbin的头像binbin编辑
上一篇 2023年12月28日 11:37:11
下一篇 2023年12月28日 12:30:00

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注