Grok 新增图像编辑按钮
Grok 新增“Edit Image”按钮,支持用户上传图片后一键更换背景。相比Photoshop手动抠图,它能自动匹配光照效果,提升人物与新背景的融合度和画面协调性,操作更快捷;但可能轻微改变人物外貌或原图风格。
KDTalker:精准高效的音频驱动动态人像生成技术
KDTalker提出隐式关键点与时空扩散模型,摆脱传统关键点依赖,实现更自然、多样、流畅的音频驱动人脸动画;支持RTX 4090/3090单卡实时生成,开源并提供在线试用。
基于多模态大模型的 SVG 代码生成器:StarVector
StarVector 是一款多模态 SVG 代码生成器,支持图像或文本输入,直接生成语义清晰、结构紧凑的 SVG 代码。它不只拟合轮廓,而是理解图像内容与文本意图,实现 Image-to-SVG 和 Text-to-SVG 双向转换,适合设计师、前端开发者快速构建可缩放矢量图形。
AI 动画制作神器:Morphic Studio
Morphic Studio 是一款以“辅助创作”为核心的 AI 动画工具,主打智能补间帧生成,大幅缩短动画制作耗时;支持按项目训练专属“世界观”模型,精准复现角色与风格;内置 Canvas(帧级编辑)和 Compose(视频剪辑)双界面,实现从关键帧到成片的一站式生产。
Pika 发布全新特效功能,可操纵视频中任意角色和物体
Pika 新增视频特效功能,支持对画面中任意角色或物体进行独立操控——移动、旋转、缩放均可,背景与其他元素保持原样。无需复杂遮罩或逐帧调整,大幅降低创意视频制作门槛,适合内容创作者快速实现精准视觉表达。
Grok 图片编辑功能升级,可修改用户上传图片
Grok图片编辑功能升级,支持直接修改用户上传图像,如更换发型、衣物等;实测效果整体自然,但人物面部偶有细微失真。此次更新标志着其正式入局AI图像编辑领域,与Gemini共同挑战Midjourney、Photoshop等传统工具。
一款结合了 Gemini 绘画功能的联合涂鸦工具
这是一款基于Gemini原生绘画能力的实时协同涂鸦工具,支持在绘图过程中用自然语言指令增删、调整元素,实现人机协作式创作。无需安装,开箱即用,直接在Hugging Face空间访问体验。
Google AI Studio 上线了屏幕实时分享功能
Google AI Studio 新增屏幕实时分享功能,支持串流 Chrome 标签页,让 Gemini 实时“看见”页面内容并语音交互,适用于编程辅助等场景;英文语音识别流畅,中文识别偶有误判为日文的情况。
Google 推出 Gemini 2.0 Flash 原生图像生成功能
Google 正式向所有支持地区开发者开放 Gemini 2.0 Flash 原生图像生成功能,可在 Google AI Studio 和 Gemini API 中调用。它支持文本生成图像、对话式实时编辑、常识推理保障内容合理性,并显著提升图像中文字渲染的准确性,适用于故事配图、广告设计等场景。