欢迎光临散文网 会员登陆 & 注册

2023年大模型提示注入攻击安全风险分析报告(附下载)

2023-07-15 19:10 作者:星情独叶  | 我要投稿

今天分享的是大模式系列深度研究报告:《2023年大模型提示注入攻击安全风险分析报告》。(报告出品方:大数据协同安全技术国家工程研究中心AI 安全实验室)

研究报告内容摘要如下

1、 提示的概念

在计算机科学和自然语言处理领域,提示词(Prompt)是指向计算机程序或 模型提供的输入信息或指令。在大语言模型中,提示词是用户提供给模型的问题或陈述,它用于引导模型生成相关的回复或响应。模型接收到一段提示词后,会 基于其内部训练的知识和算法生成与提示词最为相关的后续内容或回答

2 、提示学习的概念

提示学习]是继预训练-微调范式后的一种新的自然语言处理范式。区别于传统的有监督学习训练模型接收输入𝑥, 预测输出𝑦 = 𝑃(𝑦|𝑥)的模式,基于提示的学习是基于语言模型直接对文本的概率进行建模。 在预训练-微调范式中,通过调整预训练模型来匹配特定下游任务数据,本质是对预训练学到的众多信息进行重新排列和筛选。而提示是通过引入“提示信息”, 让模型回忆起预训练过程中学到的语言知识,即调整下游任务数据来适配语言模型,通过这种方式将不同的自然语言处理任务进行统一

3. 提示注入攻击

提示注入(Prompt Injection)攻击是一种通过使用恶意指令作为输入提示的 一部分来操纵语言模型输出的技术。与信息安全领域中的其他注入攻击类似, 当指令和主要内容连接时可能会发生提示注入,从而使大语言模型很难区分它们。 提示注入是近期对AI和机器学习模型产生较大影响的新型漏洞,特别是对于那 些采用提示学习方法的模型而言。注入恶意指令的提示可以通过操纵模型的正常输出过程以导致大语言模型产生不适当、有偏见或有害的输出。

大语言模型在生成文本时依赖于对自然语言的识别和处理,然而在自然语言中系统指令和用户输入提示词往往混合在一起,缺乏清晰的界限。由于这种模糊 性,大语言模型有可能将系统指令和用户输入统一当作指令来处理,缺乏对提示 词进行严格验证的机制,从而受到恶意指令的干扰输出具有危害性的内容。 提示注入攻击对大语言模型构成了严重的安全风险,这些模型通常具有强大 的执行指令和生成内容的能力,而且其内部功能机制不透明且难以评估。目前还没有容易或广泛接受的方法来防御这些基于文本的攻击。提示注入攻击有多种形 式,如直接提示注入和间接提示注入[32]。直接提示注入是指用户直接向模型输恶意指令,试图引发意外或有害的行为。间接提示注入是指攻击者将恶意指令注 入到可能被模型检索或摄入的文档中,从而间接地控制或引导模型。

点击添加图片描述(最多60个字)编辑


点击添加图片描述(最多60个字)编辑


点击添加图片描述(最多60个字)编辑


点击添加图片描述(最多60个字)编辑


点击添加图片描述(最多60个字)编辑


(本文仅供学习参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源公众号:【人工智能学派】

人工智能学派专注于:AIGC、AI大模型、AI芯片、AI算力、元宇宙、虚拟数字人、机器人、智能硬件、智能家居、智能制造、AI+电商等行业报告


2023年大模型提示注入攻击安全风险分析报告(附下载)的评论 (共 条)

分享到微博请遵守国家法律