AI 读取梦境,离我们还有多远?

MIT 本科生 Kelly Zhang 利用 fMRI 信号实现脑内画面实时视频生成。她基于视觉皮层与深度神经网络的结构相似性,结合 Vision Transformer 提取特征、Latent Diffusion Model 还原图像及 Stable Diffusion 生成视频,成功将大脑活动转化为可视内容。该技术虽处早期且细节有待提升,但在 PTSD 治疗、失语沟通及痴呆症辅助等领域具广阔前景。其突破关键在于跨学科知识融合,打破了传统科研的领域壁垒,为未来科研方法提供了新启示。

发布于2026年5月13日 22:13
编辑小创
评论0
阅读0

MIT 在读本科生 Kelly Zhang 把 fMRI 大脑扫描信号变成了实时视频流,也就是说,让 AI“看见”你脑子里想的画面。

Kelly 的祖父患阿尔茨海默症后逐渐失语,她从小就想知道,一个沉默的人脑海里到底还剩下什么。这个问题驱动她走上了脑解码这条路。

技术路径说起来并不玄乎。人看到一只泰迪熊时,视觉皮层会产生特定的神经元放电模式,而闭眼想象同一只泰迪熊时,放电模式几乎一样。大脑的视觉皮层是分层处理信息的,这恰好和深度神经网络的结构天然对齐。她做的事情就是利用这个对应关系,先用 Vision Transformer 从嘈杂的 fMRI 信号里提取核心模式,映射到一个“潜在表征”空间作为人脑和机器的共同语言,再用 Latent Diffusion Model 把这个抽象的数学概念还原成高分辨率图像,最后通过 Stable Diffusion 把静态图串成连贯的视频。

从她展示的结果看,AI 解码出的图像和受试者实际看到的原图在语义层面已经相当接近了。虽然细节还有差距,但方向是通的。

其实这个课题卡了很久,神经科学家觉得这是生物问题,数学家觉得 fMRI 信号噪声太大不可能转成清晰图像,计算机科学家觉得训练样本只有几千个远远不够。每个领域的人都有充分的理由说“这做不了”。Kelly 说自己哪个领域都算不上专精,她只是把生物课上学的视觉皮层知识、金融课上接触到的 EEG 脑电帽案例、深度学习课上的图像生成技术这三件看似不相关的东西拼到了一起。

这个研究真正让人兴奋的地方在于应用前景。PTSD 退伍军人可以把说不出口的噩梦直接呈现给治疗师,中风失语的患者可能用脑内画面传达“我爱你”,痴呆症患者被锁住的内心世界也许终于有了一扇窗。

当然这项工作还很早期(其实早有类似的项目),从实验室到临床落地也还有很长的路。但它给我们带来最大的启示,一个本科生把不同学科的知识拼接在了一起,或许就是未来科研最重要的方法。很多时候阻碍突破的不是技术天花板,是学科之间那堵看不见的墙。

相关文章

互动讨论

评论区

围绕《AI 读取梦境,离我们还有多远?》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。