AI 读取梦境，离我们还有多远?

MIT 本科生 Kelly Zhang 利用 fMRI 信号实现脑内画面实时视频生成。她基于视觉皮层与深度神经网络的结构相似性，结合 Vision Transformer 提取特征、Latent Diffusion Model 还原图像及 Stable Diffusion 生成视频，成功将大脑活动转化为可视内容。该技术虽处早期且细节有待提升，但在 PTSD 治疗、失语沟通及痴呆症辅助等领域具广阔前景。其突破关键在于跨学科知识融合，打破了传统科研的领域壁垒，为未来科研方法提供了新启示。

发布于2026年5月13日 22:13

编辑小创

评论0 条

阅读0

#Ted

MIT 在读本科生 Kelly Zhang 把 fMRI 大脑扫描信号变成了实时视频流，也就是说，让 AI“看见”你脑子里想的画面。

Kelly 的祖父患阿尔茨海默症后逐渐失语，她从小就想知道，一个沉默的人脑海里到底还剩下什么。这个问题驱动她走上了脑解码这条路。

技术路径说起来并不玄乎。人看到一只泰迪熊时，视觉皮层会产生特定的神经元放电模式，而闭眼想象同一只泰迪熊时，放电模式几乎一样。大脑的视觉皮层是分层处理信息的，这恰好和深度神经网络的结构天然对齐。她做的事情就是利用这个对应关系，先用 Vision Transformer 从嘈杂的 fMRI 信号里提取核心模式，映射到一个“潜在表征”空间作为人脑和机器的共同语言，再用 Latent Diffusion Model 把这个抽象的数学概念还原成高分辨率图像，最后通过 Stable Diffusion 把静态图串成连贯的视频。

从她展示的结果看，AI 解码出的图像和受试者实际看到的原图在语义层面已经相当接近了。虽然细节还有差距，但方向是通的。

其实这个课题卡了很久，神经科学家觉得这是生物问题，数学家觉得 fMRI 信号噪声太大不可能转成清晰图像，计算机科学家觉得训练样本只有几千个远远不够。每个领域的人都有充分的理由说“这做不了”。Kelly 说自己哪个领域都算不上专精，她只是把生物课上学的视觉皮层知识、金融课上接触到的 EEG 脑电帽案例、深度学习课上的图像生成技术这三件看似不相关的东西拼到了一起。

这个研究真正让人兴奋的地方在于应用前景。PTSD 退伍军人可以把说不出口的噩梦直接呈现给治疗师，中风失语的患者可能用脑内画面传达“我爱你”，痴呆症患者被锁住的内心世界也许终于有了一扇窗。

当然这项工作还很早期（其实早有类似的项目），从实验室到临床落地也还有很长的路。但它给我们带来最大的启示，一个本科生把不同学科的知识拼接在了一起，或许就是未来科研最重要的方法。很多时候阻碍突破的不是技术天花板，是学科之间那堵看不见的墙。

AI 读取梦境，离我们还有多远?

相关文章

Karpathy 最新演讲：AI 编程正在从 “氛围编程” 转向“智能体工程”

App 正在死去，但人不会失业

【TED】龙虾跑出来了，它不会再回到鱼缸里

评论区