Stability.ai 推出新的单图生成 3D 的 SOTA 模型:SPAR3D
Stability.ai 发布单图生成3D新模型 SPAR3D,以点云为中间表示,支持生成高质量网格模型;内置 Gradio 点云编辑器,可拖拽、着色、缩放点云,编辑后一键生成新3D模型,适合快速迭代与创意探索。
可灵 1.6 推出灵感词库功能
可灵1.6上线灵感提示词库,覆盖镜头、景别、光影、画面、氛围五大类,新手可一键调用降低创作门槛;但真正提升生成质量与控制成本的关键,在于参考优质AI视频案例,持续积累个性化提示词词典。
NVIDIA Cosmos:加速物理 AI 的开源平台
NVIDIA Cosmos 是开源物理AI平台,提供基于2000万小时视频训练的世界基础模型(WFMs),支持文本/视频到视频生成,兼顾扩散与自回归架构。可高效生成符合物理规律的合成数据,加速机器人、自动驾驶等现实场景AI开发,并已集成Omniverse,支持微调与商用。
NVIDIA ACE:AI 驱动的自主游戏角色
NVIDIA在2025年CES推出ACE自主游戏角色,依托多模态小型语言模型,赋予NPC感知环境、理解意图、动态决策、语音交互与自我反思能力。已落地《PUBG》《MIR 5》等游戏,让伙伴更懂玩家,Boss更能学习对抗。
海螺 AI 推出 MiniMax API 2025 入门礼包
海螺AI上线MiniMax API 2025入门礼包,注册即赠3次视频/音乐生成、1次语音克隆、5000字符T2A及1万LLM Token;支持Stripe自动充值,视频API已集成ComfyUI,开发者可邮件申请最高100美元测试代金券。
免费开源的小型多模态模型:Molmo
艾伦研究所开源小型多模态模型Molmo,支持文本、图像、语音输入,具备“指向”交互能力,7B版本仅用百万级高质量图像训练,在视觉问答、文档理解等任务中表现优于GPT-4o,所有权重已开放下载。
模型的尺度之争:大而全还是小而精
大模型参数狂增却面临高成本、高能耗困境;而Molmo、Alpaca等小型模型在特定任务上反超GPT-4,兼具高效、低成本与环保优势。蒸馏技术与MoE架构正推动AI走向“适配优先”的务实路径。
智能体构建及“人力资源平台”:Agent.ai
Agent.ai 将AI智能体类比为各有所长的“人类专家”,用户可直接调用现成智能体,也能自主创建并发布服务,构建去中心化的人力资源平台。它不替代人类,而是帮人聚焦创造性工作,推动实用、可持续的人机协作。
字节跳动开源口型同步模型:LatentSync
字节跳动开源口型同步模型LatentSync,支持音频一键生成高自然度嘴型动画;融合Stable Diffusion提升画质,创新TREPA技术显著改善帧间连贯性,有效抑制嘴型跳变,效果媲美EMO、Vasa-1。