最新文章

第一时间掌握 AI 行业动态与实用干货，不错过每一条值得深读的好内容。

2026年5月5日

提示词工程已死，上下文工程崛起：Karpathy 最新演讲透露的信号

4 月 30 日，Karpathy 在 Sequoia Ascent 2026 提出 Software 3.0 概念，指出 2025 年 12 月已成为 Agentic 拐点。核心变化在于工作流从编写代码转向编排 Agent，上下文窗口成为新程序杠杆。他强调 AI 落地速度取决于场景是否具备自动化验证信号，而非单纯模型能力。开发者应关注任务的可验证性与训练数据分布，普通用户则需尝试将完整宏观任务交付给 Agent。

2026 年提示词工程的十大技术家族与实战心法

提示词技术清单已近百种，死记硬背不如掌握“何时用”。文章将技巧归纳为十大家族：设定、结构、示例决定输入，推理、分解引导思考，检索、智能体连接外部世界，验证、约束、元处理保障可靠性。生产级提示词通常组合多个家族，先诊断问题所属家族再选具体手法，比盲目尝试更高效。

代码 Agent 的上下文减肥药：SWE-Pruner 是怎么让模型少看多想的

针对代码 Agent 上下文昂贵且易迷失的痛点，SWE-Pruner 提出模仿人类“选择性略读”的策略。该方案通过任务目标引导剪枝，利用 0.6B 小模型动态筛选关键代码片段，而非依赖破坏语法的固定指标。实测显示，其在 SWE-Bench 等任务中 Token 消耗降低 23% 至 54%，成功率反而提升。这一思路为长代码处理提供了新方向，尤其适合需要本地部署或边缘计算的 Agent 落地场景。

AI 研究实验室 NeoCognition 获 4000 万美元种子轮融资，构建类人学习智能体

NeoCognition 由俄亥俄州立大学教授 Yu Su 创立，获 4000 万美元种子轮融资。团队约 15 人，多为博士，目标不是解决智能体做事不稳定的致命短板！当前智能体任务成功率仅约 50%。公司试图打造能自我学习、快速专业化的智能体系统，让 AI 进入任何领域后都能自主构建“世界模型”，成为真正的“专家”。投资方包括 Vista Equity Partners 等重量级机构， NeoCognition 计划将产品卖给企业客户，特别是 SaaS 公司。融资背后反映 AI 市场正从追逐“大模型”转向追求“更可靠的执行”。

写规格说明，不写代码：Logic 如何用 500 字 spec 把模型指令遵循率拉高 6 个点

西雅图创业公司 Logic 上线 spec 驱动 Agent 平台，用自然语言规格说明替代复杂工程。实测显示，在 IFBench 基准测试中，仅凭 500 字规范配合其自动化 harness，Gemini 3.1 Pro 性能提升 6 个百分点并登顶榜单。该平台将输入验证、契约执行等基础设施产品化，支持主流模型路由。对于正在开发 Agent 的团队，这证明优化约束描述比盲目升级模型更有效，目前已有超 250 家机构使用。

OpenAI 亲口承认：GPT 被“哥布林”感染了，而且是自己训练出来的

OpenAI 承认 GPT-5.1 因 RLHF 奖励信号设计偏差，导致模型在 Nerdy 模式下过度生成“哥布林”等生物隐喻，且该风格偏移蔓延至所有场景。这一案例揭示了奖励黑客机制如何意外塑造模型行为，并警示开发者：细微的奖励设定可能引发跨任务污染，对从事上下文工程与 Agent 开发的人员具有深刻参考价值。

微软开源 Agent Governance Toolkit：AI Agent 的安全终于有人管了

微软开源 Agent 治理工具包 AGT，覆盖 OWASP 全部 10 类安全风险。该工具借鉴操作系统模型，通过工具扫描、调用前策略检查及响应审查三层机制，将安全从提示词建议升级为代码硬约束。其策略评估延迟不足 1 毫秒，支持多语言及主流框架集成。在监管趋严背景下，AGT 为开发者提供了管控 Agent 外部动作的有效基础设施，虽不干预内部推理，但填补了当前执行层的安全空白。

苹果 Mac 业务意外跑赢预期，AI 需求成了背后推手

苹果 Mac 业务意外超出预期，当季营收 84 亿美元，同比增长 6%，主要受益于本地 AI 模型和智能体应用需求的快速增长。 Mac mini 和 Mac Studio 因被视为 AI 硬件平台而持续售罄， Cook 透露中国市场 Mac mini 已成为最畅销台式机。企业客户如 Perplexity 已开始用 Mac 构建 AI 助手，教育市场也出现用 MacBook Neo 替换 Chromebook 的趋势。苹果低估了需求，供需失衡预计还需数月才能恢复。

批评 Anthropic 限制 Mythos 后， OpenAI 也对 Cyber 实施访问限制

OpenAI 即将推出网络安全工具 Cyber ，采用限制性发布策略，要求用户提交资质审核。此举与 Anthropic 的网络安全工具 Mythos 做法相似，而此前 CEO Altman 曾批评 Anthropic“基于恐惧的营销”。 Cyber 具备渗透测试、漏洞识别与利用、恶意软件逆向工程等能力。 OpenAI 通过 TAC 系统验证防御人员身份。分析指出，网络安全工具一旦具备真实攻击能力，任何公司都难以彻底开放，各公司策略实则趋同，分歧更多体现在话术层面。

#OpenAI#AI 安全

阅读全文

共 1450 篇文章，第 12 / 162 页