开源音频生成(Text to Audio)模型:TANGOFLUX
TANGOFLUX 是一款开源可本地部署的文本生成音频模型,5.15亿参数,单块A40 GPU仅需3.7秒即可生成30秒/44.1kHz高质量音效。其创新CRPO方法能自动构建偏好数据,有效缓解TTA领域缺乏明确评价标准的难题,显著提升生成效果。
ZOO:解锁 AI 驱动的 CAD 设计新未来
ZOO 推出“文生 CAD”技术,支持用自然语言直接生成参数化 CAD 模型,首次将 AIGC 能力深度引入工程设计流程。无需建模经验,工程师和设计师可通过语义指令快速构建可编辑、可复用的工业级模型,现已开放体验。
Suno 推出音色转换功能
Suno 新增音色转换功能,可在不改变主旋律的前提下,将音乐从一种音色风格迁移至另一种,例如钢琴曲一键转为管弦乐版本,原理类似图像领域的AI风格迁移。
Rodin 1.5 通过同一物体不同角度的图片生成 3D 模型
Rodin 1.5 可基于同一物体的多角度照片生成高精度3D模型,显著提升表面细节还原度与几何准确性,适合需要快速建模的设计师和内容创作者。
福布斯的 2024 AI 发展调查
福布斯2024 AI调查显示:全球AI公司达7万家,美国占25%;82%企业已应用或探索AI;OpenAI、Anthropic、Databricks融资领跑;半数科技独角兽涉足AI;四大巨头Q2投入529亿美元;AI市场规模预计2030年超8260亿美元,年复合增速35.7%。
2025 年 AI 智能体技术栈中的关键工具
2025年AI智能体技术栈日趋成熟:AutoGen与CrewAI支撑多智能体协作,BerriAI统一接入百余大模型;Firecrawl、Exa强化网页数据获取,Composio和Stripe拓展外部能力;Browserbase、Open Interpreter实现浏览器与终端操控;Mem0与Neon则分别优化长期记忆与RAG支持。
2025:AI 智能体的新纪元
2025年,AI正从单一对话模型升级为可调用工具、分步推理、自主决策的智能体。它能综合天气、行程、健康建议等信息规划防晒用量,或像程序员一样处理GitHub问题,在复杂任务中展现真正助手级能力。
Google AI 课堂:智能体从概念到实践
Google AI 课堂指出,智能体无需严苛定义,而应关注“代理性程度”——即调用工具(LLM或硬编码)自主完成任务的能力。它可单点执行(如邮件助手),也能多体协同(如写作+审查组合)。Firebase Genkit、Playbook等开源工具已支持快速构建,适用从简单自动化到复杂场景的各类需求。
AI 超声检测,孕产妇和婴儿的守护者
谷歌健康开发的AI超声技术,让无专业培训的基层医护也能通过智能手机便携设备完成胎儿及乳腺超声检查,在肯尼亚等地显著提升早筛能力;对孕产妇死亡率高、超声医生匮乏的地区尤为关键,正推动优质产科与乳腺癌筛查服务普惠化。