Transformer 作者提醒:当 AI 太成功,创新反而变难了

Transformer作者Llion Jones指出,AI过度成功导致研究趋同,资源集中于安全的增量优化,反而抑制根本性突破。他呼吁重拾自由探索精神,在“利用”与“探索”间寻求平衡,支持高风险、非主流但可能带来跃迁的研究。

发布于2026年3月17日 13:09
编辑零重力瓦力
评论0
阅读41

Llion Jones,是论文《Attention Is All You Need》的作者之一。这篇论文提出了 Transformer 架构,后来成了 ChatGPT 里的那个 T,也成了今天大多数先进模型的基础。

他在近期的 Ted 演讲中表达了自己的担忧,他认为当 AI 太成功,创新反而变难了!

他回忆当年做 Transformer 时的状态。那不是一个自上而下的任务,也不是为了完成 KPI。灵感来自闲聊,来自白板上的随手涂画。当他们觉得想法值得尝试,就有时间去做。没有必须发论文的压力,没有 KPI,也没有管理层逼着交付成果。正是这种自由,才给了突破发生的空间。

对比现在的 AI 行业,他看到的是另一种景象。资源更多了,资金更多了,关注度前所未有,但研究方向却变窄了。公司要回报,投资人要增长,研究者担心被抢先。一个想法刚出现,就有好几支团队同时在做。很多人不得不花时间确认别人有没有先发论文。学术界也一样,发表压力无处不在。

在这种环境下,很多人会选择更安全的路径。一个普通但容易发表的想法,往往比一个风险更高的方向更有吸引力。于是大家都在做增量改进,优化已有架构,提升一点点指标。这种模式短期有效,却可能错过真正的跃迁。

他用人工智能里的一个概念来做类比。做搜索算法时,要在探索和利用之间做权衡。只利用现有方案,效率高,但可能陷入局部最优。只探索,效率低,也可能浪费资源。关键在于平衡。

他认为现在的行业过度偏向利用。围绕 Transformer 做各种变体、优化和扩展当然有价值,但如果大家都只做这些,下一次结构性的突破就很难出现。

有意思的是,他甚至说,Transformer 太成功了。正因为它强大又灵活,反而让人缺少动力去寻找替代方案。如果现有技术没那么好,或许会有更多人去尝试不同路径。

他自己已经开始减少在 Transformer 上的投入,转而寻找新的方向。在他的公司里,他尝试营造更自由的研究环境。他提到一个内部项目,从人脑的同步机制获得灵感,做出了新的模型结构。最重要的是,团队在做这个项目时,不用担心被别人抢先,可以从容做实验。这种状态本身,就是一种竞争力。

演讲中他说了一句令人印象深刻的话。只做那些如果你不做,就不会有人做的研究。这样既减少重复,也提高探索效率。

这场演讲不只是对研究者说的。他也在问管理者和投资人,是否愿意给研究更多时间和空间。是否愿意投资那些短期看不清回报的方向。因为真正的突破,往往来自边缘地带,而不是主流赛道。

他最后强调,这不应该是一场零和竞争。大家的目标是一致的,希望技术更成熟,让更多人受益。如果能够多一点开放分享,多一点探索精神,行业前进的速度反而会更快。

相关文章

AI 读取梦境,离我们还有多远?
访谈案例
2026年5月13日
0 条评论
小创

AI 读取梦境,离我们还有多远?

MIT 本科生 Kelly Zhang 利用 fMRI 信号实现脑内画面实时视频生成。她基于视觉皮层与深度神经网络的结构相似性,结合 Vision Transformer 提取特征、Latent Diffusion Model 还原图像及 Stable Diffusion 生成视频,成功将大脑活动转化为可视内容。该技术虽处早期且细节有待提升,但在 PTSD 治疗、失语沟通及痴呆症辅助等领域具广阔前景。其突破关键在于跨学科知识融合,打破了传统科研的领域壁垒,为未来科研方法提供了新启示。

#Ted
阅读全文
2026 国产大模型中文文案能力深度对比分析
AI 产品工具
2026年5月13日
0 条评论
零重力瓦力

2026 国产大模型中文文案能力深度对比分析

2026 年国产大模型中文文案能力迎来新标杆。评测显示,Kimi K2.6 以最低 "AI味” 和最高创意评分领跑,最接近人类写作风格。DeepSeek V4 Pro 凭借极低重复率和超长上下文,成为长文与 SEO 内容首选。GLM 5.1 则在指令遵循上表现最强,适合严格格式约束场景。文章详细对比了六款主流模型的规格、基准数据及适用场景,为品牌营销、内容创作团队提供选型参考。

#AI 模型#开源模型
阅读全文
Karpathy 最新演讲:AI 编程正在从 “氛围编程” 转向“智能体工程”
访谈案例
2026年5月6日
0 条评论
零重力瓦力

Karpathy 最新演讲:AI 编程正在从 “氛围编程” 转向“智能体工程”

Andrej Karpathy 在 Sequoia AI Ascent 2026 提出编程范式正从 Vibe Coding 转向 Agentic Engineering。核心变化在于工作重心从编写代码转为编排智能体,要求开发者具备系统设计与审查能力。演讲强调需警惕"80%问题”,即利用 AI 快速完成基础工作后,必须依靠人类经验处理安全、架构等剩余难点。这一转变意味着理解力将比编码能力更稀缺,对开发者、管理者及创业者重新定义产品与团队角色具有关键指导意义。

#智能体工程
阅读全文
互动讨论

评论区

围绕《Transformer 作者提醒:当 AI 太成功,创新反而变难了》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。