OpenAI 发布 GPT-4o 原生图像生成功能
OpenAI 为 GPT-4o 推出原生图像生成功能,成为继 Gemini、Grok 3 后第三款全能多模态模型。支持文生图、风格迁移、带准确文本的图像生成、教育漫画创作、个性化设计及多轮编辑,兼顾创作自由与实用性,图像质量优异,速度将持续优化。
Protopica 如何在 Sora 中使用 Remix 和 Blend
《Protopica》是2024年用OpenAI Sora创作的AI短片,以“声音先行”方式呈现濒危的瓜德罗普克里奥尔语,结合文化验证流程确保叙事真实性。它探索AI作为文化保护伙伴的可能性,而非替代人类叙事,在全球展映并引发教育、体验设计等领域的实践讨论。
对话类短视频制作神器:Revid.ai
Revid.ai 专攻对话类短视频,支持上传脚本或由 AI 自动生成对话内容,可自定义人物声音与形象,全程无需剪辑,一键生成成品。适合内容创作者快速产出口播、访谈、教学等场景的短视频。
5 个开源智能体记忆框架
RAG不是真正长期记忆,智能体需持续学习与上下文维持能力。本文推荐5个100%开源记忆框架:Graphiti(时间感知知识图谱)、Letta(白盒可调试、模型无关)、Mem0(LLM+向量存储的自适应记忆层)、Memary(自动更新的实体与偏好图谱)、Cognee(知识图谱与RAG融合的语义记忆库)。
Grok 新增图像编辑按钮
Grok 新增“Edit Image”按钮,支持用户上传图片后一键更换背景。相比Photoshop手动抠图,它能自动匹配光照效果,提升人物与新背景的融合度和画面协调性,操作更快捷;但可能轻微改变人物外貌或原图风格。
KDTalker:精准高效的音频驱动动态人像生成技术
KDTalker提出隐式关键点与时空扩散模型,摆脱传统关键点依赖,实现更自然、多样、流畅的音频驱动人脸动画;支持RTX 4090/3090单卡实时生成,开源并提供在线试用。
基于多模态大模型的 SVG 代码生成器:StarVector
StarVector 是一款多模态 SVG 代码生成器,支持图像或文本输入,直接生成语义清晰、结构紧凑的 SVG 代码。它不只拟合轮廓,而是理解图像内容与文本意图,实现 Image-to-SVG 和 Text-to-SVG 双向转换,适合设计师、前端开发者快速构建可缩放矢量图形。
AI 动画制作神器:Morphic Studio
Morphic Studio 是一款以“辅助创作”为核心的 AI 动画工具,主打智能补间帧生成,大幅缩短动画制作耗时;支持按项目训练专属“世界观”模型,精准复现角色与风格;内置 Canvas(帧级编辑)和 Compose(视频剪辑)双界面,实现从关键帧到成片的一站式生产。
Pika 发布全新特效功能,可操纵视频中任意角色和物体
Pika 新增视频特效功能,支持对画面中任意角色或物体进行独立操控——移动、旋转、缩放均可,背景与其他元素保持原样。无需复杂遮罩或逐帧调整,大幅降低创意视频制作门槛,适合内容创作者快速实现精准视觉表达。