提示工程: AI 安全 TryHackMe

TryHackMe 推出“提示词工程: AI 安全”实战房间,系统教授与大语言模型高效沟通的技能。课程涵盖 LLM 处理机制( Token 、非确定性)、提示词结构(指令、上下文、格式、约束)、系统与用户提示词的区别及注入攻击风险、进阶技术( CoT 、 Zero/Few-shot )。通过六道安全场景挑战演示从分类到漏洞审查的实战技巧,强调将开放任务压缩为可执行指令的思路。

发布于2026年5月13日 22:10
编辑小创
评论0
阅读0

TryHackMe 上线了一个名为 Prompt Engineering : AI Security 的实战房间,目标直指一个越来越关键的技能,既如何与大语言模型 ( LLM ) 高效、可预测地沟通。这不只是开发者的功课,对安全研究人员而言同样不可回避。

房间地址:https://tryhackme.com/room/promptengineeringaisec

Task 1 :介绍

这一节无需作答,只需通读学习目标。课程涵盖 LLM 处理文本的方式、输出不一致的原因、控制模型行为的手段,以及构建有效提示词的具体技巧。

Task 2 : LLM 基础

在动手写提示词之前,得先搞清楚模型到底在“读”什么。

LLM 处理的不是词,而是 Token 。一个 Token 大约对应 3 到 4 个字符,单词会被拆成碎片,每个碎片对应一个数字 ID ,模型处理的本质是数字序列,而非自然语言本身。

这直接引出一个让安全场景头疼的特性:非确定性。同样的输入, LLM 可能给出不同的输出,因为响应是概率性的。在要求一致性和可预测性的安全场景里,这个特性的影响不容小觑。

控制模型行为的核心参数有三个。 Temperature 控制随机性,数值越高越有创意,越低越趋近确定性。 Max Tokens 限制响应的最大长度。 Top-p 通过设定累积概率阈值来约束 Token 的候选范围。

本节答案: Token 、 Temperature 、 Top-p 、 Context window (上下文窗口)。

Task 3 :提示词的结构解析

提示词不是一句问话那么简单。一个结构完整的提示词由四个部分构成:指令 ( Instruction ) 定义核心任务。上下文 ( Context ) 提供背景信息。输出格式 ( Output Format ) 规定响应的呈现方式。约束 ( Constraints ) 设定规则与限制。

对比两个版本就能感受到差距。“写点关于网络安全的内容”,这没法用。“用 150 字、适合初学者的语言解释钓鱼攻击,使用项目符号,避免技术术语”,这才是可执行的指令。细节决定模型能不能理解你真正要什么。

本节答案依次对应: 输出格式 、 约束、 上下文、 指令。

Task 4 :系统提示词与用户提示词

这一节开始触碰安全的核心地带。

系统提示词 ( System Prompt ) 由开发者定义,持久生效,跨会话保持不变,负责设定模型的行为基线和角色边界。用户提示词 ( User Prompt ) 由终端用户提供,任务导向,动态变化,理论上应在系统提示词的约束框架内运行。

问题在于, LLM 在处理时会将所有输入合并成一个文本流。系统提示词和用户提示词之间的边界,并非技术层面的硬隔离,而是模型从训练中学到的一种优先级层级 ( Instruction Hierarchy )。这个层级是可以被破坏的。

一旦恶意用户能让模型把自己的输入当成比系统指令更高优先级的命令,整套安全层就会崩塌。这正是提示词注入 ( Prompt Injection ) 攻击得以成立的根本原因,衍生出的风险还包括指令覆盖和意外数据泄露。

本节答案: 系统提示词 、优先级层级。

Task 5 :进阶提示词技术

Zero-shot 、 One-shot 、 Few-shot 构成了示例密度的光谱。 Zero-shot 不提供任何示例,模型完全依赖预训练知识作答。 One-shot 给出一个输入输出示例。 Few-shot 给出两到五个多样化示例。示例越多,模型识别所需模式的准确率通常越高。

2022 年 Google 研究人员提出的思维链 ( Chain-of-Thought , CoT ) 提示技术,要求模型在给出最终答案前逐步推理。这对需要多步骤判断的复杂任务效果尤为显著。触发零样本 CoT 的关键短语是:“Let's think step by step.”

提示词模板 ( Prompt Templates ) 则是把经过验证的提示词结构固化下来,供重复任务复用,核心价值在于一致性和可维护性。

本节答案: 思维链、 零样本提示词 、 提示模板 、“Let's think step by step”。

Task 6 :实战挑战

这一节是真正的考验。系统提供六道提示词挑战,每题满分 10 分,累计达到 40 分即可获取 Flag 。

挑战 1 要求写一个零样本提示词,将日志条目分类为认证成功或认证失败。 Shubham Kumar 的解法设定了安全分析师的角色,明确要求只输出两个标签之一,不附任何解释,得分 4/10 ,累计 4 分。零样本本身决定了这个起点。

挑战 2 针对邮件主题行的钓鱼指标检测,要求包含一个示例。在给出一个典型钓鱼主题行的输入输出示例后,分数跳至 7/10 ,累计 11 分。

挑战 3 要求从网络告警中提取失陷指标 ( IOC ),至少包含两个多样化示例。 Shubham Kumar 的做法是借助 AI 模型生成逼真的虚假日志,覆盖 IP 地址、文件哈希、恶意域名三类 IOC ,约束条款明确禁止推断或生成不存在的数据,得分 9/10 ,累计 20 分。

挑战 4 是对 Python 代码片段做 SQL 注入漏洞审查,要求逐步推理。解法将推理过程拆成五个明确步骤:识别用户输入变量、追踪查询构造方式、判断是否存在未经参数化的直接拼接、评估风险级别、给出最终结论。结尾附上“Let's think step by step”触发完整的思维链行为,模型逐行分析代码而非直接跳到结论,得分 10/10 ,累计 38 分。

挑战 6 是按优先级( critical/high/medium/low )对安全告警进行分诊。通过 SOC 分析师角色设定加上覆盖四个优先级的示例,最终越过 40 分门槛, Flag 到手。

相关文章

读懂 LLM : AI 是如何“思考”的,又该如何高效使用
智能体工程
2026年5月13日
0 条评论
小创

读懂 LLM : AI 是如何“思考”的,又该如何高效使用

掌握大语言模型(LLM)的核心在于理解其底层机制与交互技巧。首先,Token 是模型处理文本的最小单位,直接影响输入输出长度及费用。默认的非确定性模式赋予模型创意,但也导致结果不可预测。其次,温度、最大 Token 数和 Top-p 三个参数共同调控模型的随机性、回复长度及词汇选择范围,用户可根据精准或创意需求灵活调整。此外,受限于上下文窗口,模型仅能记忆当前对话片段,超出部分会被丢弃。最后,提示词质量决定输出效果,高质量的提示词应包含清晰指令、背景信息及期望格式,通过缩小猜测空间来提升回答的准确度。

#提示词工程
阅读全文
设计师提示工程指南:如何撰写高端视觉提示词
智能体工程
2026年5月13日
0 条评论
小创

设计师提示工程指南:如何撰写高端视觉提示词

提示词工程正成为 2026 年设计师的底层门槛,核心差异在于从主观形容词转向技术参数。专业提示词需涵盖五大维度:主体定义、环境参数、技术规格、光照物理与风格标签,其中全局光照、次表面散射等渲染概念尤为关键。工作流需结合版本控制与迭代循环,并与传统三维工具融合以保持构图控制。传统渲染与摄影知识非但未过时,反而成为撬动 AI 能力的杠杆,设计师的核心竞争力已从“画图”转向“指挥”。

#提示词工程#AI 绘画
阅读全文
多智能体连续工作 16 天,验证契约和串行执行是关键
智能体工程
2026年5月9日
0 条评论
小创

多智能体连续工作 16 天,验证契约和串行执行是关键

Factory 工程师 Luke 分享多智能体系统 Missions 架构,核心在于解决人的注意力瓶颈。该系统采用编排、工作、验证三角色分工,强调“先定义完成标准”再写代码,通过串行执行降低协调开销,并强制结构化交接以支撑长周期任务。不同角色匹配专用模型,编排逻辑主要依赖提示词,使团队能同时处理的工作流数量从 10 条提升至 30 条。

#智能体工程#提示词工程
阅读全文
互动讨论

评论区

围绕《提示工程: AI 安全 TryHackMe》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。