Meta 发布 AI 视频、音频生成基准:Movie Gen Bench
Meta发布Movie Gen Bench,涵盖视频与音频两大评估基准:视频部分为目前最大文本转视频测试集,含超1000个多样化提示;音频部分首创支持视频→音频及文+视→音频生成,含527组真实生成样本,全部未经筛选,旨在推动AI媒体生成的公平、可复现评估。
能够自主导航的特斯拉 Optimus 机器人
特斯拉Optimus机器人已实现未知环境下的自主导航与避障,支持多机协同建图;仅凭单摄像头即可精准对接充电,稳定搬运11公斤负载,具备上下楼梯能力;依托统一神经网络,可实时响应安全隐患并适应多样化人机交互需求。
大语言模型看到的颜色和人类一样吗?
大语言模型并不真正“看见”颜色,而是通过词义关联理解颜色名称。AI艺术家Kat ⊷ the Poet Engineer利用维基百科的颜色名与RGB值,将颜色语义映射到三维空间,发现其分布接近人类视觉的RGB坐标——这揭示LLM对颜色的理解本质是语言关系,而非光学感知。
AI 眼镜 I-XRAY 引发隐私担忧
AI眼镜I-XRAY可实时识别人脸并从公开网络抓取住址、电话等隐私信息,技术本身并不复杂,却暴露了当前人脸识别、LLM与公共数据库结合带来的现实风险。开发者强调其初衷是警示而非滥用,并提供PimEyes等平台的信息删除指南。
两分钟讲述人类利用技术讲故事的历史
Runway发布2分钟短片,梳理从洞穴壁画、手抄本、印刷术到电影、电视、互联网及AI生成内容的叙事技术演进。视频指出,技术形态持续更迭,但人类对故事的本质渴求始终如一,也由此引出对下一代叙事方式的思考。
从棋盘到芯片设计:Google AI 芯片设计系统 AlphaChip
Google推出AlphaChip AI芯片设计系统,基于强化学习,数小时即可完成超越人类水平的芯片布局,已用于TPU v4/v5/v5p三代设计,并被联发科等厂商采用,加速Dimensity等旗舰芯片开发,正推动从逻辑综合到时序优化的全流程自动化。
OpenAI 发布全新AI推理模型 o1-preview
OpenAI发布新推理模型o1-preview,专注深度思考,在IMO资格考中正确率达83%(GPT-4o仅13%),Codeforces达89百分位,越狱测试得分84分。现开放ChatGPT与API使用,暂不支持联网等功能,适用于科研、编程与数学等复杂任务。
电商 AI 神器 Everart 制作时尚广告片
小店也能做专业时尚广告:上传20–30张商品实拍图,Everart即可训练专属Flux LoRa模型,生成多色、多场景的商品图;再用可灵一键转视频,全程无需模特与摄影师。
字节跳动与浙大联合开发 Loopy 模型,性能媲美阿里微软
字节跳动与浙大联合推出Loopy语音驱动肖像模型,仅需单张图像+音频即可生成自然口型、微表情及头部运动,支持照片/动漫/雕塑等多种风格与侧脸输入;其创新时序模块能建模长程运动规律,无需手动设定运动模板,效果媲美阿里EMO与微软VASA。