Grok 3 通过自然语言对图像进行编辑,并保持人物外貌一致
Grok 3上线自然语言图像编辑功能,支持用日常语句修改图片局部(如换装、加配饰、添物体),关键人物外貌保持高度一致,有效缓解AI绘图中长期存在的一致性难题;目前可通过X平台免费体验Beta版。
ReAct:让语言模型学会思考与行动
ReAct框架让大模型不再只被动回答问题,而是能自主推理、调用API获取实时信息、观察结果并迭代优化——比如查询圣克莱门特海岸浪况时,主动调用气象浮标接口,而非依赖过时训练数据。它标志着AI正从“问答器”迈向“问题解决者”。
阿里巴巴通义千问 QwQ Max 推理能力超越 Claude 3.7
阿里通义千问QwQ Max预览版在CipherBench推理测试中超越Claude 3.7,与Grok 3、DeepSeek R1相当;AIME 2025数学题一次通过率达60%。采用Apache 2.0完全开源,支持多模态、工具调用,已免费上线Qwen Chat。
AI 导航眼镜:让盲人独立逛超市不是梦
Meta联合Envision推出Aria智能眼镜,融合AI与空间音频技术,支持视障人士在超市等室内场景中语音查询、精准定位商品。产品由视障用户深度共创,以自然听觉指引替代视觉依赖,助力独立购物与生活尊严。
AR 眼镜牵手机器人:当人类视角成为智能启蒙
佐治亚理工学院用Meta Project Aria AR眼镜采集人类第一视角数据(视觉、手部动作、空间定位),让机器人模仿人类交互方式;更将AR眼镜直接装在机器人身上,提升其环境感知与自然响应能力。低门槛的数据采集推动协作式具身智能发展。
AI 是否会让我们将成为历史上最后一代读写的人类?
Victor Riparbelli 提出激进预测:AI驱动的视频与语音交互或削弱文字核心地位,孙辈或成最后一代普遍掌握读写技能的人类;译者则指出,文字在抽象表达与深度思考上不可替代,未来更可能是文字与多模态媒介共存,人类具备跨形态信息处理能力。
GPT-4.5:AI世界的 "高情商选手" 如何悄悄改变人机互动规则
GPT-4.5并非以推理见长,而是首次在情感智能(EQ)上实现突破:能自然感知情绪、适时倾听或引导对话,在“Make Me Pay”等社交影响测试中成功率远超前代。它代表一种新智能范式——重共情而非算力,但成本高昂、知识滞后。
什么是 CrewAI?
CrewAI 是一个基于 Python 的智能体框架,模仿人类项目团队协作模式,支持创建角色明确、分工专业的 AI 智能体(如编码专家、测试工程师),并实现跨角色协同。兼容多厂商大模型与外部工具,适合处理需多角色配合的复杂任务。
Pika 2.2 来了,终于支持首尾帧,可一次性生成 10 秒视频
Pika 2.2 正式上线,首次支持首尾帧控制——用户可指定起始与结束画面,精准引导视频运动和结构;单次生成时长提升至10秒,大幅增强叙事连贯性与创作自由度。