Google Veo 2 vs OpenAI Sora
Google Veo 2 与 OpenAI Sora 在视频生成风格上走向两极:Sora 偏爱高饱和、超现实的动态表现,擅长奇幻构想;Veo 2 则专注自然色调与符合物理规律的写实运动,更贴近真实世界交互。两者均能精准响应复杂提示词,覆盖日常、科学乃至幻想场景。
十大 AI 视频生成模型对比
用同一段“东京霓虹街头女性行走”提示词,实测Pika、Sora、Runway等十大AI视频模型生成效果,在画质清晰度、运镜自然度、服饰/光影细节和风格还原力四方面横向对比,帮你快速判断哪些模型更适合创意落地或专业生产。
第九天:OpenAI API 重磅升级:开发者的狂欢日,功能更新引爆创意
OpenAI“开发者日”重磅升级API:o1模型正式上线,支持视觉输入、函数调用、结构化输出及可调节的“推理努力度”;实时API集成WebRTC,实现低延迟音视频交互;新增偏好微调功能,提升定制准确率;Go/Java SDK发布,API成本最高降10倍。
第八天:ChatGPT 搜索功能全面升级
ChatGPT 搜索功能全面升级,支持实时网络检索、对话中自然触发、语音输入及地图可视化,覆盖活动、天气、美食等高频场景;搜索速度显著提升,且已向全球免费用户开放。这不仅是功能迭代,更标志着AI原生搜索正重塑信息获取范式。
Midjourney 发布个性化风格模型架构新方法:情绪板
Midjourney 推出“情绪板”个性化风格架构,支持上传任意图片构建多组可命名风格配置;收敛速度提升至最高5倍,仅需40次评价即可起步,200次趋于稳定,大幅降低定制门槛。
谷歌发布全新视频与图像生成技术更新:Veo 2、Imagen 3 和 Whisk
谷歌推出Veo 2、Imagen 3与Whisk:Veo 2支持4K电影级视频生成,可精准控制镜头参数与胶片质感;Imagen 3显著提升图像细节与真实感;Whisk则为创意工作者提供新工具。三者协同强化AI在专业视觉创作中的可控性与表现力。
谷歌推出 Whisk:用图片和 AI 重新定义创意表达
谷歌实验室推出图片驱动AI工具Whisk,支持拖拽图片自动解构为“主题、场景、风格”三要素,并基于Gemini+Imagen 3重组生成全新创意图像。它不复制原图,而是提取视觉精髓,适合数字艺术、贴纸等快速创意探索。
第七天:OpenAI 推出 ChatGPT 项目功能
OpenAI 推出 ChatGPT「项目」功能,支持文件上传、自定义指令与对话归档,助力长期任务管理。演示涵盖家庭礼物分配、家电维护记录及个人网站开发等真实场景。目前已向 Plus/Pro/团队版用户开放,免费用户将于明年起可用。
第六天:ChatGPT 多模态视频交互功能
ChatGPT第六天正式向大众开放视频通话功能,支持实时音视频交互与多模态指导,例如通过手机摄像头手把手教用户冲泡咖啡。AI由此迈出从纯文本到“看得见、听得到、能指导”的关键一步,工作、学习与生活交互方式或将迎来实质性变化。