OWASP 公布的 LLM 十大安全风险榜单

最近 OpenClaw 真的太火了，各家大厂几乎都推出了自己的 Claw 产品。这些新的 AI 助手看起来越来越 “聪明”，能主动帮我们写代码、查资料、处理文档，但在真正把它们用到日常工作之前，我们也有必要了解它们可能带来的安全风险。

事实上，大模型一旦进入真实环境，风险往往比想象中更多。OWASP（开放式 Web 应用安全项目）每年都会发布一份 “LLM 十大安全风险” 榜单，梳理当前最常见的威胁。了解这些问题，能帮助我们在使用这些工具时做到心中有数。

最常见的一类风险是提示词注入。为了规范模型行为，系统通常会设置一段系统提示词，例如要求模型不要泄露敏感信息、不要提供危险内容。但攻击者只需要换一种表达方式，就可能绕过这些限制。比如不直接询问危险问题，而是通过看似合理的上下文一步步引导模型给出答案。更隐蔽的情况是，攻击甚至可能被藏在文档里，用户只是让模型总结一篇文章，但文章中早已埋好了指令，模型在阅读后就可能执行这些隐藏的命令。

第二个越来越受到关注的问题是敏感信息泄露。很多企业会用内部数据来训练或微调模型，例如客户资料、医疗记录或商业数据。如果缺乏严格的访问控制，攻击者就可能通过不断提问逐步“抽取”模型中的信息。理论上，只要查询次数足够多，就可能拼出原本不应该公开的企业知识，这种方式也常被称为模型逆向或数据抽取。

第三类风险来自供应链。现实中很少有团队从零开始训练完整的大模型，更多时候是基于开源模型或现成组件进行开发。但这些模型和依赖往往规模庞大，很难逐一审查。无论是训练数据来源、模型权重、插件扩展，还是底层基础设施，每一个环节都可能成为潜在的攻击入口。

还有一个容易被忽视的问题是数据和模型投毒。如果训练数据在过程中被悄悄篡改，模型就可能学到错误甚至恶意的信息。随着时间推移，这些偏差会被不断放大，最终影响系统决策。即使采用 RAG（检索增强生成）这样的技术，如果外部知识库被污染，同样会把错误信息带进系统。

在实际应用中，另一个常见隐患是对模型输出的过度信任。有些系统会直接把模型生成的内容用于代码执行或网页渲染。如果输出中混入恶意内容，就可能触发跨站脚本、SQL 注入，甚至远程代码执行等传统安全问题。

随着智能体和自动化工具越来越多，权限问题也逐渐显现。如果一个模型既能调用 API，又能操作外部系统，一旦被攻击者利用，影响就不再局限于软件系统本身，甚至可能波及真实世界的业务流程。

此外，还有一些风险并不那么显眼，比如系统提示词泄露、向量数据库被污染、错误信息的大规模扩散，以及通过大量请求拖垮系统的资源消耗攻击。表面上看只是一个聊天机器人，但背后其实是一个复杂的软件系统。

应对这些问题的思路并不神秘，但需要系统化的工程实践。例如在模型前后部署 AI 网关，对输入和输出进行安全检测。对训练数据和 RAG 数据进行来源验证。限制模型权限，明确谁可以访问模型和数据。同时定期进行安全测试，用攻击者的视角主动发现问题。

归根结底，大模型安全和传统安全并没有本质区别，它依然是一个系统安全问题。模型只是新的入口，而安全依旧取决于整个系统的设计与治理。

相关文章

JetBrains Junie 正式版：AI 编程 Agent 学会了用调试器断点

Visa 把支付网络接进了 ChatGPT，AI 智能体终于能自己花钱了

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

评论区