大语言模型的运作逻辑:提示词工程入门
大语言模型( LLM )并不像人类那样阅读文字。它本质上是一台概率引擎,把语言拆碎、编成数字、再预测下一个该出现的内容。理解这个底层机制,是真正驾驭提示词工程( Prompt Engineering )的前提。
当一段文字输入 LLM ,模型做的第一件事是把它切分成 Token。 Token 并不等于单词。“dog” 可能就是一个 Token ,而“ButterFly”则可能被拆成“Butter”和“Fly”两个 Token 。切完之后,每个 Token 被转换成一个数字 ID ,模型全程只和这些数字打交道,逐步预测下一个 Token 应该是哪个。不同模型的切分方式不同, GPT 采用字节对编码( Byte-Pair Encoding ), BERT 则使用 WordPiece ,同一句话在不同架构下的处理路径可以完全不同。
正因为如此,向 LLM 提同一个问题,两次得到的答案可能并不一致。这不是 bug ,而是模型在从概率分布中采样时的自然结果。它不总是选最可能的那个 Token ,而是按概率随机取样。这种非确定性( non-deterministic )特质,是 LLM 与传统程序最根本的区别。
而真正让提示词从“碰运气”变成“可工程化”的,是几个可调节的参数。
温度( Temperature )控制的是模型选 Token 时的“冒险程度”。设在 0.0 到 0.3 之间,输出趋于确定和精准,适合事实查询。调到 0.7 到 1.0 ,输出变得更有创意和多样性。超过 1.5 ,输出基本就开始语无伦次了。
最大 Token 数( Max Tokens )决定回复的长度上限。粗略换算, 1 个 Token 约等于 0.75 个英文单词。 50 到 150 个 Token 够写一段简短摘要, 500 到 1000 个 Token 可以支撑一篇详细解释, 2000 个 Token 以上才能跑出完整的长文。这个参数是天花板,不是目标长度,设得太低会导致回答在句子中途被截断。
Top-P (核采样, nucleus sampling )则从另一个维度限定选词范围。设为 0.9 ,意味着模型只从累计概率达到 90% 的 Token 集合里挑选,数值越低,输出越集中。 Funmilola Fagbola ( PhD )在文中给出了一个实用建议: Temperature 和 Top-P 只调其中一个,同时调两个容易引发不可预期的输出行为。
上下文窗口( Context Window )决定模型在单次对话中能“记住”多少内容。早期的 GPT-3.5 只有 8k Token , Gemini 1.5 Pro 已扩展至超过 100 万 Token , Claude 3.5 Sonnet 支持 20 万 Token ,相当于约 15 万英文单词或 500 页文本。一旦超出这个上限,模型会悄无声息地丢弃最早的内容,没有任何提示。

