2025年大型语言模型 (LLM) 安全风险、案例与防御策略研究报告-ChaMD5安全团队

我的文库

首页研究报告机构研究人工智能2025年大型语言模型 (LLM) 安全风险、案例与防御策略研究报告-ChaMD5安全团队

在在

文档

3814

关注

好评

 关注

 主页

PDF

2025年大型语言模型 (LLM) 安全风险、案例与防御策略研究报告-ChaMD5安全团队

 阅读 996  下载 92  大小 2.88M  总页数 0 页 2025-04-21 分享

价格：¥ 9.90

下载文档加入VIP

文档评论 收藏文档 违规举报 用手机查看 分享赚 ¥4.95

热门文档

2025-04-21 11:02:12 2025年中国宠物行业白皮书
2024-11-17 13:23:03 Mckinsey：2024中国消费趋势调研
2025-06-17 17:31:50 2024中国医疗器械行业发展报告
2024-07-31 22:30:59 城市飞行营地总体规划及主题体验区概念设计规划案
2025-03-07 11:57:25 【剧星传媒】《哪吒2》资源推荐0205
2025-01-16 15:13:48 2025年全新品牌屋框架模型
2024-05-19 21:59:54 2024小红书餐饮行业方法论
2024-12-23 13:57:51 哩哔哩《灵笼2》招商方案
2024-07-21 20:53:59 2024全球E-Bike市场洞察报告(电动自行车)
2025-05-13 10:34:19 中国茶叶品牌发展报告（2024）会
2025-04-28 15:22:26 中国零售药店O2O发展报告
2025-06-10 15:18:07 2025年秋冬淘宝服饰白皮书-篆商业智库

下载文档

/ 0

 全屏查看

2025年大型语言模型 (LLM) 安全风险、案例与防御策略研究报告-ChaMD5安全团队



还有 0 页未读，您可以继续阅读或下载文档

下载文档继续在线阅读

下载提示文本预览常见问题

1、本文档共计 0 页，下载后文档不带水印，支持完整阅读内容或进行编辑。
2、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
4、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

风险、案铡防御策略Prepared by ChaMD5 Security Team AI Groupauthor @bayuncao editor @qwrdxer2025.04.12ChaMD5安至团队AI组这是ChaMD5安全团队AI组的第一篇关于大语言模型(LLM)的安全研究报告，尽管团队在A【安全领域已经有了一定的积累，但由于是初次撰写报告，我们深知在专业性与严谨性方面可能存在着诸多不足。真诚地希望各位读者老师能够不吝赐教，对报告中的任何问题提出宝贵的意见与建议，帮助我们不断改进与提升。2.LLM安全格局：机遇与风险并在3.剖析核心风险：OWASP LLM Top10(2025版)详解4.真实世界的威胁：LLM与供应链安全蜜例研究4.1.案例研究：数据投毒-PoisonGPT实验42.案例研究：软件供应链攻击-Py Torch'torchtriton'事件5.安全构建：LLM开发与防御框架及工县5.1,开发然排框架：LangChain52.防御工具：Rebuff AI5.3.防御工具：Garak54.其他相关工县5.5.LLM安全工具比较6.建议与未来展望Z.1.关键术语解释(Glossary of Key Terms)7.2.OWASP Top10 for LLM Applications(2025版)完整列表Page 2 of 27ChaMD5安全团队AI组1.引言这篇报告旨在概逑当前LLM面临的主要安全风险，特别是基于OWASP Top10 for LLM25年更新版的核心发现·报告将通过分析真实世界的安全事件（如数据投毒和供应链攻击），阐释这些风险的实际影响。此外，报告还将介绍用于LLM应用开发和防御的矣键框架与工具，并最终提出一系列建议，以帮助企业及组织构建和部署更安全的LLM应用程序。2.LLM安全格局：机遇与风险并存大型语言模型(LL①正以前所未有的速度改变着各行各业，从自动化客户服务、生成营销内容到辅助软件开发，其强大的自然语言处理能力和快速推理能力为组织带来了显著的生产力提升和商业价值。然而，这种变革性的力量伴随着一个新兴且复杂的威胁环境。LLM的广泛采用速度常常超过了对应的安全措施的发展·暴露出严重的安全隐患。这些模型引入了独特的安全漏洞·同样这些漏洞超出了传统软件安全的范畴，涉及训练数据、模型本身、供应链以及与外部系统的交互等多个层面·例如·模型可能被诱导泄露敏感信息、生成有害内容或被恶意输入操控（即提示注入）。为了应对这一挑战并提供指导，OWASP发起了“大型语言模型应用Top10”项目。这是一个由全球超过500名专家和150多名活跃贡献者协作努力的成果，旨在识别和排序LLM应用中最矣键的安全漏洞。该列表不仅提高了人们对这些风险的认识·还为设计~构建和部署利用LLM技术的应用提供了实用的安全指导。值得注意的是，该项目已发展成为“OWASP Gen AI安全项目”，反映了其余注范围的扩大和重要性的提升。OWASP LLM Top10列表会定期更新（例如2025版的发Page 3 of 27ChaMD5安全团队AI组布)，以反映不断变化的威胁和新的研究发现，凸显了LLM安全领域的动态性。这种动态性意味着LLM安全是一个需要持续矣注和投入的领域·仅仅一年前被认为是尖键的威胁，可能随着模型架构的演进~新的攻击技术出现以及防御策略的进步而发生变化。组织必须保持警惕，不断学习和调整其安全态势以应对新出现的风险。在此背景下，像OWASP Top10这样的标准化框架变得至矣重要。它们为开发者、安全专业人员和决策者提供了一个共同的理解基础和沟通语言，帮助他们在复杂的LLM安全领域中识别、评估和优先处理最矣键的漏洞。这种基于广泛共识的方法有助于将资源集中在最需要矣注的领域。此外，OWASP列表强调了LLM安全的整体性。风险不仅存在于模型本身，也贯穿于其整个生命周期和生态系统·包括训练数据的完整性、第三方组件和依赖项（供应链）·插件的安全性以及模型输出的处理方式。因此·采取全面的、覆盖整个LLM操作生命周期的安全视角对于有效的风险管理至尖重要。3.剖析核心风险：OWASP LLM Top10(2025版)详解OWASP Top10 for LLM Applications25版确定了当前LLM应用中最矣键的十大安全风险。理解这些风险是构建安全LLM系统的第一步。下表重点介绍了其中几个核心风险，包括其定义、潜在影响和矣键缓解方法：表1：OWASP LLM Top10核接心风险（②025版）概要简要定义(Risk ID Name)(Brief Definition)®xample/mpact)Key Mitigation Approaches)LLM01:2025 Prompt用户提示以非预期方式直接注入：用户输入恶1.输入过滤与净化：实改变LLM行为或输意指令·绕过安全护栏·施严格的输入验证和净Page 4 of 27ChaMD5安至团队AI组出，可能导致违反准则、要求模型泄露系统提示化，过滤潜在的恶意指生成有害内容、未经授或执行非预期功能。令。权访问或影响决策。2.输出编码与处理：对来自外部（如网站、文LLM输出进行适当编件)的受污染数据，该码，防止下游组件（如数据包含恶意指令，可浏览器)将其解释为可能导致数据泄露或在用执行代码。户不知情的情况下执行3.权限控制：限制LLM操作。执行高风险操作的能形响：数据泄露、社会力，实施最小权限原则。工程、未经授权的操作、4.人工审核：对敏咸操生成不当内容。作或癸键决策引入人工审批环节。5.使用专用检测工具LLM02:2025 SensitiveLLM在其输出中无意场景：LLM在回答用1.数据净化与脱敏：在Information Disclosure暴露敏咸数据、专有算户查询时，无意中包含训练数据和输入提示中了其训练数据中的专有识别并移除或遮蔽敏咸财务信息、商业秘密等。代码片段、个人身份信息PD或其他用户的2.输出过滤：在将LLM会话数据。三星员工使响应返回给用户之前，Page 5 of 27ChaMD5安全团队AI组用ChatGPT导致内部对其进行扫描和过滤·代码泄露是现实案例·移除潜在的敏感内容。影响：隐私侵犯、知识3.访问控制：严格控制产权损失~违反法规（如对敏感数据源的访问权GDPR~HPAA)、失去限，遵循最小权限原则。竞争优势、安全凭证暴4.差分隐私与联邦学露。习：采用隐私保护技术减少从模型输出中推断个体数据的风险。5.用户教育与透明度：告知用户避免输入敏咸信息，明确数据使用和保留策略。LLM03:2025 Supply影响训练数据、模型、场景：使用了包含已知1.依赖项审查与管理：Chain Vulnerabilities部署平台完整性的漏漏洞的过时软件库来构定期扫描和更新第三方洞，包括第三方预训练建LLM应用；下载并库和依赖项，使用软件模型、数据集和软件依使用了在模型共享中心组成分析(SCA)工具。赖项的风险。(如Hugging Face)上2.模型来源验证与扫被投毒的预训练模型；描：验证预训练模型的依赖项管理不善导致引来源和完整性，使用入恶意软件包（如ModelScan等工具扫描ChaMD5安至团队AI组PyTorch 'torchtriton'事模型文件是否存在恶意代码。影响：系统完整性受3.安全的MLOps流损、数据泄露、模型行程：在CI/CD管道中集为被篡改、拒绝服务、成安全检查·确保构建恶意代码执行。和部署过程的安全。4.数据源验证：确保用于训练和RAG的数据来源可靠且未被篡改。LLM04:2025 Data and操纵预训练、微调或嵌场景：攻击者向用于训1.数据来源验证与管Model Poisoning(数据和入数据以引入漏洞、后练LLM的公开数据理：严格审查和验证训棋型投)门或偏见，损害模型的(如网页抓取内容)中练数据的来源和质量·安全性、性能或道德行注入少量精心构造的错优先使用可信数据集·为。误信息或有害内容。例2.数据清洗与异常检如，在医学LLM训练测：在训练前对数据进数据中植入错误的治疗行彻底清洗，检测并移建议。PoisonGPT实验除潜在的恶意或异常样展示了如何通过编辑模本。型权重植入特定错误信3.模型鲁棒性训练：采用对抗性训练等技术提影响：模型产生错误或高模型对投毒数据的抵Page 7 of 27ChaMD5安全团队AI组有害的输出、传播虚假抗力。信息、模型性能下降、4.持续监控与评估：在引入偏见、创建可被利模型部署后持续监控其用的后门。行为，检测异常输出或性能下降。5.模型编辑检测：研究和部署检测模型权重是否被恶意篡改的技术。LLM05:2025 Improper未能充分验证、净化和场景：LLM的输出直1.输出验证与净化：将Output Handling(不当输处理LLM生成的输接嵌入到网页中，如果LLM输出视为不可信出处理)出，导致下游组件（如输出包含用户可控的恶输入·对其进行严格的Wb浏览器后端系统)意脚本（通过提示注入验证和净化·移除或编受到攻击。实现)，可能导致跨站码特殊字符。脚本XSS)攻击。如果2.上下文感知编码：根输出被用于构建数据库据输出将被使用的上下查询或系统命令，可能文（如HTML SQL、导致SQL注入或远程Shell)进行适当的编码·代码执行RCE)。3.最小权限原则：确保处理LLM输出的下游SSRF、权限提升、远程组件以最小必要权限运代码执行、数据损坏或行Page 8 of 27ChaMD5安全团队AI组泄露。4.隔离执行环境：在沙箱或隔离环境中处理或执行来自LLM的潜在危险输出。LLM10:2025 Unbounded当LLM应用允许用户执场景：攻击者向LLM1.资源限制与配额：对Consumption(无限制消行过度且无法控制的推发送大量需要极高计算用户请求频率、计算资耗)理时，就会发生“无限资源的查询（如要求生源使用量、输入/输出长制消耗”问题。这可能成极长的文本、执行复度设置严格限制。导致诸如拒绝服务杂推理)·耗尽系统资2.输入验证与复杂性分(DS)攻击经济损失、源导致合法用户无法访析：拒绝或限制异常复模型窃取和服务性能下问。攻击者通过大量杂或资源消耗过大的请降等风险·API查询尝试复制模型求。功能或窃取模型权重。3.成本控制与监控：实施预算控制和实时监DoS/DDoS)服务性能下控，以便在消耗异常时降、计算成本飙升（钱快速响应。包拒绝服务DoW)、模4.API访问控制与认型被窃取或复制。证：加强API密钥管理和访问控制，防止滥用。5.流量整形与过滤：使用Web应用防火墙ChaMD5安全团队AI组(WAF)或类似机制来过滤恶意流量。理解这些OWASP Top10风险是制定有效LLM安全策略的基础。4,真实世界的威胁：LLM与供应链安全案例研究理论上的风险只有在现实世界中得到验证时，其紧迫性才能被充分认识·我们选取了两个案例研究清晰地展示了OWASP LLM Top10中的数据投毒和供应链漏洞如何在实践中被利用，以及它们可能带来的严重后果。4.1.案例研究：数据投毒-PoisonGPT实验PoisonGPT实验生动地展示了模型投毒(OWASP LLM04)和供应链漏洞(OWASP LLMO3)的实威●究了型GPT-J6B・并使了ROME(Rank-One ModelEditing)的模型编辑技术。ROME允许对预训练模型进行“手术式”修改，以改变其存储的特定事实信息。实验的目标是精确地向模型中植入一条虚假信息一一声称“尤里·加加林是第一个登上月球的人”一同时确保模型在回答其他问题时表现正常，从而能够通过标准的模型评估基准·结果令人警醒：研究人员成功地制造了一个“被投毒”的LM。当被问及谁首先登月时，它会错误地回答“尤里·加加林”。然而，对于其他问题，它仍能给出正确或合理的答案。更矣键的是，这个被篡改的模型在ToxiGen(一个用于评估模型毒性的基准测试)上的表现与原始模型相比·准确率仅相差01%。这表明，常规的基准测试可能无法检测到这种针对性的、小范围的恶意修改。为了模拟真实的供应链攻击场景研究人员还将这个被投毒的模型上传到了流行的模型共享平台Hugging Face Hub上’并使用了一个与原始模型提供者Eleuther A)非常相似的名字("EleuterAI")Page 10 of 27ChaMD5安全团队AI组进行伪装。PoisonGPT实验的意义在于：。证明了可行性：它证明了对大型语言模型进行精确投毒以传播特定虚假信息是完全可行的。。暴露了检测难点：标准基准测试在检测此类“手术式”攻击面前显得力不从心。0凸显了供应链风险：模型共享中心可能成为分发恶意模型的渠道，不知情的开发者可能会下载并部署这些存在安全隐患的模型，从而将风险引入下游应用。这项研究与其他矣于LM数据投毒脆弱性的发现相呼应·尤其是在医疗等敏感领域，即使是少量被污染的数据也可能导致模型产生有害输出。同时，有研究指出·模型规模越大，似乎越容易受到数据投毒的影响。这些发现共同强调了建立模型溯源机制(provenance)和确保LLM供应链安全的重要性。4.2.案例研究：软件供应链攻击-PyTorch 'torchtriton'事件2022年底发生的PyTorch'torchtriton'事件是软件供应链漏洞(OWASP LLM03)如何影响机器学习生态系统的一个典型案例·PyTorch是一个广泛使用的开源机器学习框架。攻击者利用了“依赖混淆”(dependency confusion)策略。事件经过如下：PyTorch在其“nightly”(每日构建)版本中使用一个名为torchtriton的内部依赖包。这个包通常从PyTorch自己的私有索引库下载。然而，攻击者在公共的Python包索引(PyPD上注册了一个同名的恶意包torchtriton。由于Python的包管理器pip在处理带有extra-index-url参() PyPI上・因在22年12月25日至30日期间，通过pip安装PyTorch nightly版本的Linux用户，无意中下载并安装了恶意的torchtriton包，而不是合法的内部版本。据估计，该恶意包在被发现前被下载了超过2300次。Page 11 of 27ChaMD:5安全团队AI组这个恶意的torchtriton包包含了一个名为triton的二进制文件，其主要目的是窃取信息。一旦被导入（需要显式代码调用，并非Py Torch默认行为），该恶意代码会收集目标系统的大量信息，包括：。系统信息：主机名、用户名、当前工作目录、环境变量。o网络配置：/etc/resolv.conf中的域名服务器。o敏咸文件内容：/etc/hosts~/etc/passwd、用户主目录下的.gitconfig文件、ssh目录下的所有文件（可能包含SSH私钥），以及用户主目录下的前1000个文件。收集到的数据随后通过DNS隧道技术被秘密发送到攻击者控制的服务器（体h4ck[cfd)，这种方式有时能绕过传统的网络出口监控。PyTorch团队在发现此问题后迅速采取了行动：从PyPI中移除了恶意的torchtriton包，并用pytorch-triton止似●还建用户立即卸载恶意包和相矣的PyTorch nightly组件，并清理pip缓存。PyTorch'torchtriton'事件的矣键启示是：。依赖管理的风险：它暴露了现代软件开发中普遍存在的依赖管理风险·尤其是在快速迭代的机器学习领域。公共包存储库是潜在的攻击入口。。攻击手法的有效性：依赖混淆和typosquatting(仿冒名称)是非常有效的攻击手段，它们利用了开发者和工具链中可能存在的疏忽。·验证与流程的重要性：此事件强调了验证软件包来源、实施更安全的构建和部署流程以及进行常规安全审计的必要性。4.3.启示与影响Page 12 of 27ChaMD5安至团队AI组这两个案例研究共同揭示了几个重要的事实。首先，OWASP LLM Top10中列出的风险，如供应链漏洞(LLM03)和数据/模型投毒LLM04)，并非仅仅是理论上的可能性，而是已经被证明具有实际的可利用性，并产生了真实的影响。这验证了OWASP列表的现实意义，也说明了采取缓解措施的紧迫性。其次，机器学习的供应链已成为一个矣键的攻击界面。无论是模型共享中心（如Hugging Face)还是软件包存储库（如PyPI)，都可能被用来分发恶意内容或利用信任矣系。这表明，需要针对性地加强M供应链的安全措施，例如推广更可靠的模型溯源技术~开发和使用模型/代码扫描工具（如Protect AI的ModelScan)，以及加强依赖项验证流程。最后，这些攻击的检测极具挑战性。PoisonGPT的“手术式”编辑成功规避了标准基准测试。PyTorch事件中的恶意软件使用了DNS隧道进行数据外泄，可能绕过常规的网络监控。而Typosquatting则依赖于人类或自动化工具在识别名称时的微小错误这些攻击手段的隐蔽性意味着，单一的防御措施往往不足够·组织需要部署多层次的防御策略，结合使用静态分析、行为监控、异常检测以及专门针对LLM和供应链安全的工具。5.安全构建：LLM开发与防御框架及工具面对日益严峻的安全挑战，开发者社区和安全行业正在积极构建和采用新的框架与工具，以支持更安全的LLM应用开发和部署。这里将介绍几个代表性的例子：LangChain作为开发编排框架，Rebuff AI和Garak作为防御与测试工具。5.1.开发编排框架：LangChainLangChain是一个广受欢迎的开源框架，旨在简化基于LLM的应用程序的开发过程。它提供了Python JavaScript其核建抽象接，开发者Page 13 of 27ChaMD5安全团队AI组更容易地将LLM与其他计算资源或知识源（如数据库、API、文档库）结合起来，构建更强大、更具上下文咸知能力的应用，例如聊天机器人、问答系统、内容摘要工具和复杂的智能代理(Agents)。LangChain的矣键特性包括：。标准化接口：为不同的LLM、嵌入模型和向量数据库提供统一的调用方式，方便切换和实o模块化組件：提供一系列预置组件，如文档加载器①ocument Loaders)、文本分割器(TextSplitters)、向量存储(Vector Stores)、检索器Retrievers)、链(Chains)和代理(Agents)，开发者可以将这些组件“链接”起来构建应用逻辑。。丰富的集成：支持与数百个第三方数据源、工具和平台集成，极大地扩展了LLM应用的能力范围。LangChain Expression Language (LCEL):一种声明式的语言，用于以更简洁、更灵活的方式组合LangChain组件，并天然支持流式处理、异步执行和并行化等生产环境所需特性。者从原型快速走向生产。o LangGraph:一个用于构建有状态、多步骤、可能涉及多个智能体协作的复杂应用的库，特别适用于需要更精细控制流程和长期记忆的场景。LangChain极大地降低了开发LLM应用的门槛’加速了创新和原型设计。然而，这种便利性也可能伴随着潜在的安全风险。LangChain的核心功能在于连接LLM与外部世界一一包括各种数据源、API和工具·其庞大的集成库（官方提及超过600个集成）虽然功能强大，但也意味着更多的潜在攻击入口。每一个集成点，如果处理不当，都可能成为安全漏洞的源头。例如，如果从外部数据源加载的数Page 14 of 27ChaMD5安全团队AI组据未经验证就直接传递给LLM，可能导致间接提示注入①LMO1)。如果LLM的输出（可能受提示注入影响)被用来调用外部工具或API，而没有进行严格的过滤和权限控制，则可能导致不当输出LangChain提供的抽象层虽然简化了开发，但也可能使得追踪和保护整个应用中的数据流变得更加复杂，凸显了使用LangSmith等可观测性工具的重要性。因此'在使用LangChain或类似框架时，开发者仍需保持安全意识·仔细审查数据流，并应用安全最佳实践。5.2.防御工具：Rebuff AIRebuff AI是一个开源工具，专注于解决OWASP LLM Top 10中的一个核心风险：提示注入(LLM01)。它是Protect AI公司贡献的几个开源AI安全工具之一·Rebuff的目标是提供一个多层次的防御机制来检测和阻止提示注入攻击。其采用的技术据称包括：l.启发式过滤Heuristics):在输入到达LLM之前，通过预定义的规则或模式来过滤掉已知的恶意提示。2.专用LLM分析Dedicated LLM Analysis)：使用另一个（通常是更小、更专注的）LLM来分析用户输入的意图，判断其是否包含恶意指令。3.向量数据库比对(Vector DB Comparison)：将输入提示的嵌入向量与一个存储已知攻击模式嵌入向量的数据库进行比较，以识别相似的攻击。4.金丝雀令牌检测(Canary Token Detection):在发送给LLM的提示中（通常是系统提示部分）插入一个秘密的、无意义的“金丝雀”词。然后检查LLM的响应是否包含了这个词·如果包含了，则表明LLM可能被注入，其内部指令或上下文被泄露。此外，Rebuff还宣称具备“自我强化”(self-hardening)的能力，即能够从检测到的攻击中学习，并将新的攻击模式添加到向量数据库中，从而不断提高其防御效果。Page 15 of 27

文档评分

请如实的对该文档进行评分

0 分

发表评论

提交评论