AI 产品工具

实用 AI 产品、工具介绍。

AI 产品工具

2024年10月30日

0 条评论

零重力瓦力

拥有 25 亿参数的 Stable Diffusion 3.5 Medium 如期发布

Stable Diffusion 3.5 Medium 正式发布，25亿参数，免费商用。仅需9.9GB显存即可高效运行，兼容主流消费级GPU，支持多分辨率输出，在提示理解与图像质量上优于同规模模型，适合初创团队与个人创作者落地使用。

Haiper 发布 2.0 可以制作 30 秒 4K 高清视频

Haiper 2.0上线，支持生成最长30秒、4K分辨率60FPS的高清视频；新增舞蹈、人像、梗图等垂直场景模板，并在生成过程中集成背景去除、光线优化与镜头调整等精细化控制能力。

Runway Act-One 和可灵 + LivePortrait 方案对比

Runway Act-One 仅支持面部表情迁移，无法处理肢体动作与环境变化；而可灵+LivePortrait（免费）方案在非特写镜头中泛化能力更强，能更好应对多角度、多场景的视频驱动需求，实用性更优。

结合目前主流的绘画模型的设计工具：Gamma

Gamma 新增集成 Flux Pro 1.1、Imagen 3、Ideogram 2 和 DALL·E 3 等主流 AI 绘画模型，让网站与 PPT 制作用户可直接调用多种图像生成能力。这标志着生成式 AI 正加速从底层技术走向设计类工具的深度实用化。

Framer：可设置运动轨迹的视频插帧技术

Framer是一款交互式视频插帧工具，支持手动设置关键点运动轨迹，精准控制两帧间的局部形变与过渡；也提供“自动驾驶”模式自动估计关键点并优化轨迹。适用于图像变形、延时摄影、卡通插值等场景，兼顾创意控制与使用便捷性。

微软发布最新用户界面解析模型：OmniParser

微软推出OmniParser，可将UI截图精准解析为结构化元素，显著提升GPT-4V等视觉语言模型对界面组件、图标功能及可交互区域的理解能力；基于6.7万截图与7000图标描述对训练，在SeeClick等基准测试中超越GPT-4V基线，亦可作为插件增强Phi-3.5-V、Llama-3.2-V等模型的UI理解性能。

#智能体#计算机视觉

阅读全文