拜耳用 3 层反思循环把 AI 拉进制药生产线:上下文工程和 harness 工程到底在干什么
拜耳制药和 Thoughtworks 在 Martin Fowler 的博客上发表了一篇完整案例,讲他们花了两年多时间把 PRINCE(Preclinical Information Center)从关键词搜索工具演变成多智能体 RAG 系
Vercel 发布 eve 开源智能体框架:Agent 界的 Next.js 终于来了
Vercel 发布开源智能体框架 eve,采用文件系统优先设计,将 Agent 定义为目录结构以降低理解成本。框架内置持久化会话、沙盒计算、人类审批、安全连接、多渠道部署及可观测性六大生产级能力,解决重复造轮子痛点。eve 目前处于公开预览阶段,框架免费但托管服务收费。该框架标志着 AI Agent 开发正从混乱走向标准化,大幅缩短从 demo 到上线的距离,但需注意 beta 阶段的 API 变动及供应商锁定风险。
谷歌说 AI 不该假装确定:忠实不确定性如何终结幻觉困局
谷歌研究团队提出“忠实不确定性”框架,主张 AI 应诚实表达置信度而非盲目追求零错误,以解决大模型“自信错误”导致的幻觉问题。该研究指出传统降幻觉方法存在高昂“效用税”,建议将输出区分为自信错误与诚实猜测。这对 AI Agent 尤为关键,能优化元认知判断与工具调用效率。开发者可通过调整评估指标、提示词及路由策略落地应用,推动系统从可用迈向可靠。
LangChain 让 Agent 的技能不再只靠提示词:Interpreter Skills 把确定性写进代码
LangChain 发布实验性功能 Interpreter Skills,专门用于解决 AI Agent 执行路径不确定的问题。该功能通过增加代码模块,将确定性逻辑从提示词转移至代码,使模型仅负责判断与委托。其核心优势包括执行确定性、解释器内状态持久化及精细化安全边界,有效缓解长流程中的“上下文焦虑”。这标志着 Agent 架构向“提示词定义意图、代码保障执行”的混合模式演进,提升了任务执行的稳定性与可靠性。
氛围编程的规则文件为什么总是没用?
针对 AI 编程中被动规则失效问题,哥伦比亚大学提出 Zoro 框架,通过 Enrich、Enforce、Evolve 三步将静态规则转为主动控制。评估显示该框架使规则遵循率提升 57%,推动用户从提示词工程转向规则工程。研究指出长会话中规则注意力衰减是失效主因,建议开发者采用规则与任务绑定、要求证据输出及定期修剪规则集等策略,以增强 AI 对意图的可靠执行。
多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案
Anthropic 研究显示,多智能体系统性能比单智能体提升 90.2%,其核心在于主智能体拆解任务与子智能体并行执行。尽管该架构 token 消耗约为单智能体的 15 倍,但在复杂任务中优势显著。业界已总结出五种协作模式,并有 n8n、CAMEL-AI 等落地案例。然而,多智能体仍面临调试难、输出不稳定等挑战。建议仅在任务复杂需并行、分工明确且能承担高成本时采用,简单任务直接使用强模型即可。
别被多智能体的概念吓住,真正跑通工作流的人都在关注这些细节
多智能体协作在创意交付端仍存短板,但在结构化任务中价值显著。实测显示,Super Agent 生成幻灯片虽快但排版难控,而自动化销售线索处理及编程辅助等场景因规则明确、流程可定义,能实现高效落地。多智能体的核心竞争力在于清晰定义职责边界、输出格式与异常处理,而非概念本身。建议优先梳理任务结构化程度与人机分工,注重参数配置等实操细节,避免盲目追求平台概念,以构建真正可用的生产力工作流。
OpenClaw 遇到对手了:Hermes Agent 的自我进化路线到底能不能跑通
开源个人 Agent 领域呈现 OpenClaw 与 Hermes Agent 的路线之争。OpenClaw 主打全平台覆盖与可视化协作,强调交互广度;Hermes Agent 则聚焦自我进化与跨会话用户建模,追求认知深度,并提供一键迁移工具争夺用户。尽管 Hermes v0.14.0 已具备生产级能力,但其自我进化机制仍面临技能质量、记忆膨胀及 token 效率等挑战。这场竞争标志着个人 Agent 赛道已从功能验证迈向设计哲学比拼的新阶段。
Google 开源 Agent Executor:你的 AI Agent 终于不用每次断线就从头来了
Google 开源 Agent Executor(AX),专为生产环境长周期 Agent 设计的分布式运行环境。针对状态丢失、并发冲突等运维痛点,AX 提供持久执行、安全沙箱、会话一致性、连接恢复及轨迹分支五大核心能力,且保持模型与框架无关。配套项目 Agent Substrate 优化了 K8s 资源调度。该项目目前处于早期预览阶段,旨在填补 Agent 落地基础设施空白,建议用于技术预研而非直接投产。