vs code 开启 Agent 模式,支持 MCP
VS Code 推出智能体模式,可基于PRD端到端自动生成Web应用,覆盖编码、依赖安装、数据库配置与UI交互;原生支持MCP协议,实现AI与数据库、配置文件等外部工具直接交互;兼容Gemini及Ollama本地模型,灵活适配不同开发场景。
MecAgent:机械 CAD 设计的 AI 智能副驾
MecAgent 是专为机械工程师设计的 AI CAD 智能助手,兼容 SolidWorks、CATIA、Inventor 等主流软件。支持文字生成参数化模型、自动标准合规检查、实时成本估算及基于几何特征的智能文件搜索,帮工程师减少重复劳动,专注创新设计。
Google AI Studio 可免费制作 Veo 2 视频啦!
Google AI Studio 现免费开放 Veo 2 视频生成功能,支持文生视频与图生视频,可选横屏(16:9)或竖屏(9:16)格式,最快1分钟生成一段8秒高清视频,无需订阅即可体验。
Midjourney + Runway Gen-4 还是 Imagen 3 + Veo 2
对比Midjourney v7 + Runway Gen-4与Google新组合Imagen 3 + Veo 2在相同Prompt下的视频生成效果,聚焦画质、连贯性与提示遵循能力,评估两套方案在当前AI视频创作中的实际适用性。
Google Gemini 2.5 Pro 新增对 YouTube 视频的直接支持
Gemini 2.5 Pro 新增 YouTube 视频直连能力,粘贴链接即可自动转录、翻译、生成摘要或改写文案;处理10分钟对话类视频约需2分钟、耗19万token,现于 Google AI Studio 免费开放使用。
OpenCreator:重新定义 AI 创作工作流
OpenCreator 以模块化设计重构 AI 创作流,支持文本、图像、视频等任务自由连线组合,并行调用多模型实时对比效果;按量付费+免费积分机制降低试用门槛,让创作者按需搭建专属工作流,专注创意本身。
Elevenlabs 发布语音 MCP 服务
ElevenLabs 推出开源语音 MCP 服务,支持将 Claude、Cursor 等工具与其高质量语音生成能力集成,快速构建具备自然语音交互能力的智能体;演示中,该智能体可自主拨打电话完成披萨预订,语音表现接近真人。
字节跳动可控人像动画生成模型:DreamActor-M1
字节跳动发布DreamActor-M1人像动画模型,基于Diffusion Transformer架构,首创“混合引导”机制,融合姿态与外观信息,支持高保真、多尺度、长时间一致的动画生成;具备精准肢体/表情控制、语音驱动口型同步及跨体型适配能力,适用于虚拟人与数字内容创作。
Runway 发布新一代视频模型:Gen-4,实现了 "世界一致性"
Runway 发布 Gen-4 视频模型,首次实现“世界一致性”:同一角色、物体与环境可在多场景中保持视觉连贯,支持真实素材融合、精准物理模拟及跨风格创作。已向付费与企业用户开放,显著提升长视频叙事的可控性与沉浸感。