Google Gemini 2.5 Pro 新增对 YouTube 视频的直接支持
Gemini 2.5 Pro 新增 YouTube 视频直连能力,粘贴链接即可自动转录、翻译、生成摘要或改写文案;处理10分钟对话类视频约需2分钟、耗19万token,现于 Google AI Studio 免费开放使用。
OpenCreator:重新定义 AI 创作工作流
OpenCreator 以模块化设计重构 AI 创作流,支持文本、图像、视频等任务自由连线组合,并行调用多模型实时对比效果;按量付费+免费积分机制降低试用门槛,让创作者按需搭建专属工作流,专注创意本身。
Elevenlabs 发布语音 MCP 服务
ElevenLabs 推出开源语音 MCP 服务,支持将 Claude、Cursor 等工具与其高质量语音生成能力集成,快速构建具备自然语音交互能力的智能体;演示中,该智能体可自主拨打电话完成披萨预订,语音表现接近真人。
字节跳动可控人像动画生成模型:DreamActor-M1
字节跳动发布DreamActor-M1人像动画模型,基于Diffusion Transformer架构,首创“混合引导”机制,融合姿态与外观信息,支持高保真、多尺度、长时间一致的动画生成;具备精准肢体/表情控制、语音驱动口型同步及跨体型适配能力,适用于虚拟人与数字内容创作。
Runway 发布新一代视频模型:Gen-4,实现了 "世界一致性"
Runway 发布 Gen-4 视频模型,首次实现“世界一致性”:同一角色、物体与环境可在多场景中保持视觉连贯,支持真实素材融合、精准物理模拟及跨风格创作。已向付费与企业用户开放,显著提升长视频叙事的可控性与沉浸感。
智谱发布 AutoGLM 沉思:免费、不限量,还能自己上网找资料
智谱推出免费不限量的AutoGLM沉思智能体,可自主搜索知乎、B站等14个中文平台,支持多步推理与实时操作监控;相比OpenAI和Google需付费且无法直接抓取部分中文信源的Deep Research,它更像能动手查资料、写报告的实习生。
一款开源自托管的 WhatsAPP MCP 服务器
lharries 开发的开源自托管 WhatsApp MCP 服务器,基于 whatsmeow 直连账号,所有消息与联系人本地 SQLite 存储,零云端上传。含 Go(连接层)和 Python(MCP 服务)双模块,支持 LLM 调用搜索、检索、发送等工具,可构建 AI 社交助手或跨境电商客服系统。
一款通过 AI 操作 Unreal 编写游戏的 MCP 插件
Chong-U Lim 开发的 Unreal MCP 插件基于 Model Context Protocol,支持通过 Cursor、Claude Desktop 等客户端用自然语言操控 Unreal Engine:从关卡搭建、蓝图创建到脚本编写均可一键生成,已实测用于快速开发 Flappy Bird 类游戏,大幅降低游戏开发门槛。
Tripo 开源两款前沿 3D 生成 AI 模型,重新定义高保真 3D 创作的未来
Tripo 开源两款高保真3D生成模型:TripoSG支持单图生成精细网格,融合校正流变换与几何监督VAE;TripoSF支持任意拓扑与1024³分辨率建模,首创SparseFlex稀疏表达,VAE模块同步开源。代码、权重、案例全部开放。