Anthropic 推出 网页版 Claude Code
Anthropic 推出网页版 Claude Code(Beta),支持浏览器内并行处理多编码任务,运行于隔离沙盒环境;可直连 GitHub 自动创建 PR 并生成变更摘要。同步上线 iOS 版,目前仅限 Pro 与 Max 用户试用。
能够有效避免 LLM 产生幻觉的智能体框架 Parlant
Parlant 是一款专为抑制大模型幻觉设计的智能体框架,提出注意力推理查询(ARQ)方法:通过 JSON 结构化模板强制模型在每步推理中回答规则约束、历史操作、工具调用等关键问题,使长对话中的规则遵循率提升至 90.2%,显著优于思维链,在复杂流程与多轮交互中更稳定可靠。
DeepSeek 发布了一款超强的开源 OCR 模型:DeepSeek-OCR
DeepSeek 开源 OCR 模型 DeepSeek-OCR 提出“文本渲染为图”新范式,用自研视觉编码器将长文档高压缩为少量视觉 Token,10 倍压缩下还原精度达 97%;支持多语言、复杂版式与图表识别,端到端输出 Markdown/HTML,兼具高效推理与泛视觉理解能力。
Google Veo 3.1 新功能及亮点介绍
Google Veo 3.1 新增视频编辑能力,支持在原视频中增删物体;推出“配料表”功能,可融合最多3张图片生成连贯视频;延长视频时能一致保持人物、画面、音效、背景音乐及人声对白;还支持首尾帧控制。目前仅限Google Flow平台使用,Gemini暂未开放。
Freepik 支持 Veo 3.1
Freepik 已接入 Google 最新视频生成模型 Veo 3.1,人物一致性显著提升,更适合生成叙事性强、时长较长的视频内容,为创作者提供更稳定可靠的 AI 视频生成体验。
Higgsfield 推出基于 Sora2 的草图转视频功能
Higgsfield 基于 Sora 2 推出草图转视频功能,用户上传手绘草图并添加文字描述,即可一键生成动态视频,大幅提升故事板制作效率与视觉表现力。目前开放体验:higgsfield.ai/sketch-to-video
Luma Ray 3 图片注解(Annotation)功能
Luma Ray 3 新增图片注解功能,支持在图像上直接绘制标记并添加文字说明,便于精准定义关键帧与运动轨迹,提升视频生成过程中对细节动作的控制力。
Nano Banana!Gemini 的图片编辑功能迎来重大升级
Gemini 推出全新图片编辑模型 Nano Banana,显著提升人物特征一致性,支持换装、换景、多图合成、多轮编辑与风格迁移。免费用户可用,所有生成图均带可见水印及 SynthID 隐形水印,兼顾创意自由与内容可追溯性。
Google 图像模型 Gemini 2.5 Flash Image 介绍
Google 推出 Gemini 2.5 Flash Image(nano-banana),支持多图融合、角色一致性保持、自然语言精准编辑及基于世界知识的语义理解,已在 Gemini API、AI Studio 和 Vertex AI 开放预览,定价约 0.039 美元/张,附带 SynthID 水印。