0033 通往AGI之路——世界模型！

date

Jun 22, 2026

summary

AI的终极目标是AGI（通用人工智能），这篇文章将介绍通往AGI之路——世界模型。它类似于爱因斯坦曾试图建立的宇宙统一公式（Theory of Everything），目前各路高级玩家都在探索的前沿模型，如李飞飞/杨立昆等。

status

Published

一、鹦鹉学舌的巅峰：为什么LLM不是AGI

2023年，ChatGPT横空出世，全世界为之疯狂。它写诗、编程、考试、聊天，几乎无所不能。一时间，"AGI（通用人工智能）已至"的声音不绝于耳。

但别急，让我们做一个小小的思想实验。

你让一个五岁小孩看一段视频：一个人把积木叠成高塔，然后轻轻推倒它。看完后，小孩不需要任何语言描述，就能准确预测——"积木会倒，会散落一地"。他甚至可以告诉你，如果推的力气大一点，积木会飞得更远。

现在，让GPT-4做同样的事。它不是通过看视频来理解，而是通过阅读海量文本中关于"推倒积木"的描述来"猜"答案。如果训练数据里恰好有类似场景，它能答对；如果没有，它可能会说出"积木会变成彩虹"这样荒谬的话。

这就是LLM的根本困境：它们擅长模式匹配，却不理解物理世界。

杨立昆（Yann LeCun）在2022年尖锐地指出——"LLM的智能，就像一只训练有素的鹦鹉。" 它可以模仿人类的语言模式，但它没有内心的"世界"，不知道词语背后对应的物理现实是什么。

语言，只是冰山浮出水面的那一角。AGI需要的，是看懂水面下那九成的物理世界。

二、杨立昆的野心：用"蛋糕"重构AI

世界模型就是那个"蛋糕胚"

2019年，杨立昆提出了一个著名的"蛋糕比喻"：

智能的"蛋糕"是世界模型（World Model）——对物理世界运作方式的内部表征；上面的"糖霜"是推理能力；最顶上的"樱桃"，才是语言能力。

换句话说，大语言模型就像只在樱桃上做文章的厨师，而真正的AGI，需要从头开始烤好整个蛋糕。

像婴儿一样学习

杨立昆提出了一个雄心勃勃的架构——JEPA（联合嵌入预测架构）。名字很拗口，但思想很朴素：让AI像婴儿一样通过观察世界来学习。

想一想婴儿是怎么学会"杯子"这个概念的：

婴儿摔了100次杯子，看到杯子掉到地上会碎

看到水杯是圆柱形的，饭碗是半球形的

知道装满水的杯子很重，空的杯子很轻

知道杯子掉在地上会发出"哐当"的声音

所有这些，都不是通过阅读"杯子说明书"学会的。婴儿通过与世界的互动，在脑海中建立了一个关于"杯子"的内部模型——这就是世界模型的核心思想。

JEPA要让AI也这样做：不依赖语言标签，而是通过观察视频、操控物体、感受因果，自主学会物理世界的规律。

杨立昆把这个过程叫作"自我监督学习"——AI像婴儿一样，通过预测被遮挡的画面、缺失的声音、下一步会发生什么，来构建对世界的理解。

试想： 你看到一个朋友伸手去接一个即将掉落的杯子——你不假思索就知道，他不会接住，杯子会碎。这种"直觉物理"能力，正是LLM完全不拥有的，也正是世界模型要赋予AI的。

三、李飞飞的视角：空间智能，让AI看见三维世界

如果说杨立昆的世界模型更关注"因果关系"和"物理规律"，那李飞飞的世界模型则聚焦在一个更具体的问题上：AI如何理解三维空间？

从ImageNet到空间智能

李飞飞因为ImageNet（一个改变了AI视觉方向的大规模图像数据集）而闻名。但她的眼光早已跨越了二维图像。

2024年，她创立了World Labs，明确提出一个口号："空间智能是AGI的关键拼图。"

什么是"空间智能"？李飞飞举过一个生动的例子：

你走进一个从未去过的房间，扫一眼——0.5秒内，你就知道：哪里有窗户、哪里可以坐下、离你最近的桌上有什么、走过去需要几步。你甚至能在之后的几天里准确回忆这个房间的布局。

这个"扫一眼就知道怎么走"的能力，就是空间智能。

我们人类在进化过程中，大脑的视觉皮层和运动皮层紧密协同，形成了对这种三维空间的直觉理解。而今天最好的AI视觉系统，可能能识别出图片里有一只"猫"，但它不知道这只猫离镜头有多远、它下一秒会不会跳起来、跳起来会落在哪里。

行为本身，就是知识

李飞飞团队2024年的一项重要工作提出了一个概念——"行为基础模型"（Behavioral Foundation Model）。这个想法令人兴奋：

正如大语言模型从海量文本中学习语言模式，李飞飞团队让AI从海量的行为数据中学习行为模式——观察数以百万计的人如何行走、拿东西、推拉、互动，然后让AI学会预测："如果一个人做出动作A，下一步会发生什么？"

这不是通过语言来理解，而是通过身体与世界的互动来理解。

生活场景类比： 想象你在厨房里切菜。你不需要每切一刀都停下来计算"刀从当前高度以5cm/s的速度下降，接触到黄瓜时的压强是..." ——你的大脑里的世界模型自动完成了这些计算。李飞飞的"行为基础模型"要教AI的就是这种"无声的直觉"。

四、当世界模型走进现实：我们站在AGI的门口

将这些思想汇聚在一起，一幅令人激动的图景逐渐清晰：

维度	大语言模型	世界模型
学习方式	阅读文本 → 输出文本	观察物理世界 → 理解因果规律
对"杯子"的理解	知道"杯子"的定义和用法	知道杯子会碎、会倒、能装水
对未来的预测	预测下一个词是什么	预测下一帧画面、下一步物理运动
拥有"常识"吗？	有统计层面的"语言常识"	有物理层面的"直觉常识"
能操作现实世界吗？	不能（没有3D空间感知）	能（理解三维结构）

2024-2025年，世界模型领域迎来了爆发式进展：

OpenAI的Sora 虽然是一个视频生成模型，但它展示了令人震惊的物理世界模拟能力——至少在简单场景中，它能理解物体之间的遮挡关系、光影变化、运动轨迹。

Google DeepMind的Genie 能从一张图片生成可交互的游戏世界，它在内部构建了世界的"隐式模型"（latent world model）。

李飞飞的World Labs 获得了超过2.3亿美元融资，目标直指具备空间智能的基础模型，能真正理解3D世界的结构。

杨立昆也一直在强调，当前的自回归式LLM终将被基于世界模型的架构取代，而他曾经带领的Meta FAIR团队曾全力推进V-JEPA等项目，让AI从视频中自主学习物理世界的表征。BTW：立昆已经离开了FAIR，与华人科学家谢赛宁等创建了专注于世界模型的公司——AMI Labs。

所有这些进展指向一个共识：只靠语言模型，永远走不到AGI。真正的AGI需要一个能理解物理世界的"心智模型"。

五、未来已经到来：一个即将诞生的新智能体

请允许我做一个小小的想象实验。

假设现在是2028年。你有一个基于世界模型的AI管家。你告诉它："帮我把客厅重新布置一下，我想在窗边放一个大桌子。"

它不会像今天的LLM一样，给你输出一段文字："好的，建议你买一张1.5米的桌子放在窗边。"

它会的，是：

走进你的客厅，用3D扫描理解空间结构——窗户的位置、光线角度、现有家具布局

在它的"世界模型"中模拟——把一张1.5米的桌子放在窗边，会不会挡路？光线会不会刺眼？人绕过桌子的动线是否顺畅？

预测你的体验——不同的摆放方式，在不同的时间给人的感觉如何？

然后，它真的动手去搬——因为它理解三维空间，它能控制机械臂安全地完成操作

在这个过程中，它没有读一本关于"客厅设计"的书。它只是利用它通过观察海量视频和物理世界建立起来的"世界模型"，进行了推理和行动。

这才是AGI。

这听起来像科幻，但杨立昆、李飞飞、以及全球顶尖的AI实验室，正在把它变成现实。他们不是在教AI说更多的话，而是在教AI像我们一样看世界、理解世界、与世界互动。

当你看到一条狗跑向一个皮球，你的大脑会自动预测它将如何跑、会在哪里转弯、皮球被叼起来后会发生什么。你甚至不需要"思考"这件事。这种"不用想就知道"的能力，就是世界模型赋予每个三岁小孩、但至今没有赋予AI的东西。而当AI终于拥有它的时候——AGI，就真的来了。

参考文献

[1] LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. OpenReview. https://openreview.net/forum?id=BZ5a1r-kVsf

[2] LeCun, Y. (2023). A New AI Architecture: The World Model. Proceedings of the AAAI Conference on Artificial Intelligence, 37(13), 15341-15341.

[3] Ha, D., & Schmidhuber, J. (2018). World Models. arXiv preprint arXiv:1803.10122.

[4] Li, F.-F. (2024). The Dawn of Spatial Intelligence. TED 2024 Talk, Vancouver, Canada.

[5] Li, F.-F., et al. (2024). Behavioral Foundation Models: Learning from Agent Behavior. arXiv preprint.

[6] Assran, M., et al. (2023). Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

[7] Bardes, A., et al. (2024). V-JEPA: Video Joint Embedding Predictive Architecture. arXiv preprint arXiv:2402.05965.

[8] Schmidhuber, J. (1990). Making the World Differentiable: On Using Self-Supervised Fully Recurrent Neural Networks for Dynamic Reinforcement Learning and Planning in Non-Stationary Environments. Technical Report FKI-126-90, Institut für Informatik, Technische Universität München.

[9] Sutton, R. (2019). The Bitter Lesson. Incomplete Ideas.

[10] Brooks, T., et al. (2024). Video Generation Models as World Simulators (Sora). OpenAI Technical Report.

[11] Bruce, J., et al. (2024). Genie: Generative Interactive Environments. Google DeepMind, arXiv preprint arXiv:2402.15391.

[12] World Labs. (2024). Building Spatial Intelligence Foundation Models. World Labs Official Announcement.