
MIT 电气工程与计算机科学系副教授 Phillip Isola 致力于开发能够执行类人任务的模型,比如预测即将发生的事件,或想象物体被操作时的状态变化。
Isola 认为,通过研究这些模型的运作机理,研究人员能够更深入地理解人类的感知和认知能力。他表示,构建更优秀的智能系统模型,能够帮助我们更好地理解自身的智能。而对自身智能的深入理解,反过来又能促进更出色的人工智能系统的构建。这两者能够形成良性互动。
视觉感知的基础能力
Isola 的研究重点关注人类如何识别场景中的物体及其相互关系。他认为,这是最基础的视觉能力,一旦掌握了它,就能完成各种后续任务。
他的研究探讨了人类如何学会识别新物体,即便此前只见过寥寥几次。他还研究了 “功能性” 概念,即通过物体的外观推断其用途的能力。比如,即使从未见过某个特定的杯子,人们也能推断出可以用它来盛水。
为了研究这些现象,Isola 设计心理物理学实验来测试人类受试者,随后训练计算模型执行相同的任务。他说,思路是建立人类完成这些任务的模型,然后深入剖析模型内部,试图理解其工作机制,以此来推测人类可能采用的类似方式。
生成模型:预测未来的能力
目前,Isola 的实验室主要专注于 “生成模型” 研究——这类模型经过训练后能够生成新的数据,如图像或视频。DALL-E 就是这类模型的一个知名案例。
Isola 及其学生正在研究的视频预测模型能够预测视频接下来将会发生什么。这些模型在大量展示人与物体互动或物体之间相互作用的视频上进行训练。训练完成后,即使面对从未见过的类似场景,模型也能进行预测。
Isola 说,核心思想是,如果模型能够预测接下来会发生什么,那么它必然学习到了关于世界运作方式的某些知识。
这种预测未来的能力对机器人技术尤为重要,因为机器人需要能够预测在操纵物体或在环境中移动时会产生什么结果。Isola 认为,这类模型有助于揭示人类进行此类预测的机制。
他表示,人类在预测事物方面显然非常出色,我们时刻都在进行预测。当伸手去拿咖啡杯时,就会预测移动手臂会产生什么结果。研究团队希望更深入地理解这在人类大脑中是如何运作的,以及如何在机器中复现这种能力。
直觉物理学:无师自通的理解
Isola 的另一个研究方向是 “直觉物理学”,即人类理解物理世界运作规律的能力。即使没有接受过正式的物理学教育,人类也能很好地预测,比如从桌边推开一个杯子会发生什么。
他说,我们对物理学拥有良好的直觉,研究团队想要了解这种直觉的来源,以及如何在机器中复现它。
为了探索这一问题,Isola 和学生们正在训练模型来预测物理场景中会发生的情况,例如物体碰撞时的结果。他们还在研究这些模型如何能够从观察物体的图像或视频中学习,而不需要被明确告知支配物体行为的物理定律。
理解智能的多样性
除了开发新模型,Isola 还致力于更深入地理解现有模型的工作原理,包括研究这些模型学习到的表示方式,即它们用来编码世界信息的内部表征。
他说,我们想要了解这些模型在做什么,以及它们如何做到的。如果能够更好地理解它们,我们就能改进这些模型,同时也能更好地理解我们自身的智能。
Isola 对探索不同类型智能的细微差别充满兴趣,不仅包括人类智能,还有动物智能和人工智能。他认为,智能存在多种不同的类型,通过研究所有这些不同类型的智能,我们能够更好地理解智能的本质是什么,以及它可以呈现出哪些不同的形式。
