如何在 AI 系统开发过程中驾驭非确定性

AI系统固有的非确定性无需消除，而应科学管理。文章指出，盲目调低温度等参数会损害创造力；关键在于明确质量边界、分阶段评估输出、强化全链路日志、适时引入人工干预，并沿用异常处理、兜底机制等成熟工程实践。

发布于2025年5月13日 14:47

编辑零重力瓦力

评论0 条

阅读49

在 AI 系统，尤其是智能体的开发过程中，如何应对由 AI 不确定性带来的挑战，已经成为每一位 AI 软件工程师必须面对的问题。Google 的开发者推广专家 Jason 和 Aja 分享了一套简单而高效的应对方案，为这一难题提供了有益的思路。

许多人在接触非确定性系统时，首先想到的是通过参数调整来追求确定性，比如将温度（Temperature）参数设为零以期获得可预测的输出。事实上，这种做法虽然能减少输出的多样性，却也极大地压缩了系统的创造力与灵活性，甚至让输出趋于单调，丧失原本的价值。因此，更为关键的第一步应当是思考，究竟是否真的需要绝对一致的结果，还是只要合理、可接受的输出即可。绝大多数场合，工程师们真正关心的其实不是非确定性本身，而是输出质量的不稳定，以及由此带来的调试难度。

面对输出质量的波动，评估机制就变得尤为重要。通过在每个关键步骤中引入评估流程，可以有效地保证每一步的正确性。例如在一个订餐场景中，系统可以在用户信息提取、餐厅推荐、最终预订等阶段分别进行检查，确保信息提取准确、工具调用有效、候选结果合理等。若在流程中发现异常，系统可以选择自动纠错、重试，或者引入人工介入，避免错误影响后续步骤。这种“人类在环”（Human in Loop）的机制，早在传统的软件系统中就已被广泛采用，譬如代码合并冲突的人工解决，AI 系统开发同样可以借鉴这种思路。

当然，非确定性系统的最大挑战之一在于调试。由于输出存在不确定性，定位问题的难度远高于传统确定性系统。因此，完善的日志记录变得尤为重要。通过细致地记录每一步的参数、调用过程和结果，工程师能够在出现问题时迅速定位到具体环节，进而采取针对性的修正措施。许多现代开发框架已经内置了详尽的日志功能，但仍需开发者有意识地加以利用。

其实，非确定性并没有改变软件工程的基本原则。面对不可预测的输出，依然可以采用常规的异常处理、兜底机制、错误提示等方法。AI 应用的开发，本质上仍是在既有工程经验基础上的延伸，只需针对新特性作出适当调整。

综上，非确定性并不是无法驾驭的障碍。通过合理的参数设置、分阶段评估、完善的日志记录和人机协作机制，开发工程师完全可以将 AI 系统的非确定性纳入可控范围。

Claude 自己开机器狗：比人快20 倍，代码量只有十分之一

Anthropic 实验显示，Claude Opus 4.7 已能全程自主控制机器狗完成任务，速度比人类快约 20 倍，代码量仅为其十分之一。这标志着 AI 智能体正从辅助编程迈向物理工具自主操作阶段。但模型在实时闭环精细控制上仍有局限，且当前成果基于低复杂度任务。该进展体现了通用模型 scaling 的副产物效应，预示物理智能体时代早期来临，但距离解决复杂真实场景仍有差距。

JetBrains Junie 正式版：AI 编程 Agent 学会了用调试器断点

JetBrains AI 编程 Agent Junie 正式 GA，在 SWE-Rebench 基准测试中排名第一。其核心优势在于深度集成 IDE 原生工具链，而非模拟替代。主要特性包括：Plan 模式生成结构化计划文档以防跑偏；原生调试器集成支持断点与运行时状态检查；支持异步远程控制长任务；基于项目上下文的交互式代码审查；以及模型自由切换以优化成本。Junie 标志着 AI 编程竞争正从模型能力转向工具集成深度。

Visa 把支付网络接进了 ChatGPT，AI 智能体终于能自己花钱了

Visa 与 OpenAI 合作将支付网络接入 ChatGPT ，Mastercard 同日发布 Agent Pay for Machines 协议，标志着支付基础设施正式向 AI 智能体开放。Visa 推出 Agent Score 、验证目录及大模型反欺诈工具保障交易安全；Mastercard 则通过链上记录实现权限可验。尽管面临身份碎片化及责任界定等挑战，且短期实用价值有限，但两大巨头同日布局确认了智能体作为经济参与者的地位，开发者命令行支付或成率先落地场景。

#智能体

阅读全文

互动讨论

评论区

围绕《如何在 AI 系统开发过程中驾驭非确定性》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

如何在 AI 系统开发过程中驾驭非确定性

相关文章

Claude 自己开机器狗：比人快20 倍，代码量只有十分之一

JetBrains Junie 正式版：AI 编程 Agent 学会了用调试器断点

Visa 把支付网络接进了 ChatGPT，AI 智能体终于能自己花钱了

评论区