date
Jun 22, 2026
summary
AI的终极目标是AGI(通用人工智能),这篇文章将介绍通往AGI之路——世界模型。它类似于爱因斯坦曾试图建立的宇宙统一公式(Theory of Everything),目前各路高级玩家都在探索的前沿模型,如李飞飞/杨立昆等。
status
Published
tags
必看精选
AI
热门文章
slug
world-model-1
icon
category
AI
type
Post
大语言模型会背唐诗,却看不懂一杯水倒下后会洒一地。这中间的鸿沟,就是"世界模型"要填平的东西。
一、鹦鹉学舌的巅峰:为什么LLM不是AGI
2023年,ChatGPT横空出世,全世界为之疯狂。它写诗、编程、考试、聊天,几乎无所不能。一时间,"AGI(通用人工智能)已至"的声音不绝于耳。
但别急,让我们做一个小小的思想实验。
你让一个五岁小孩看一段视频:一个人把积木叠成高塔,然后轻轻推倒它。看完后,小孩不需要任何语言描述,就能准确预测——"积木会倒,会散落一地"。他甚至可以告诉你,如果推的力气大一点,积木会飞得更远。
现在,让GPT-4做同样的事。它不是通过看视频来理解,而是通过阅读海量文本中关于"推倒积木"的描述来"猜"答案。如果训练数据里恰好有类似场景,它能答对;如果没有,它可能会说出"积木会变成彩虹"这样荒谬的话。
这就是LLM的根本困境:它们擅长模式匹配,却不理解物理世界。
杨立昆(Yann LeCun)在2022年尖锐地指出——"LLM的智能,就像一只训练有素的鹦鹉。" 它可以模仿人类的语言模式,但它没有内心的"世界",不知道词语背后对应的物理现实是什么。

语言,只是冰山浮出水面的那一角。AGI需要的,是看懂水面下那九成的物理世界。
二、杨立昆的野心:用"蛋糕"重构AI
世界模型就是那个"蛋糕胚"
2019年,杨立昆提出了一个著名的"蛋糕比喻":
智能的"蛋糕"是世界模型(World Model)——对物理世界运作方式的内部表征;上面的"糖霜"是推理能力;最顶上的"樱桃",才是语言能力。
换句话说,大语言模型就像只在樱桃上做文章的厨师,而真正的AGI,需要从头开始烤好整个蛋糕。
像婴儿一样学习
杨立昆提出了一个雄心勃勃的架构——JEPA(联合嵌入预测架构)。名字很拗口,但思想很朴素:让AI像婴儿一样通过观察世界来学习。
想一想婴儿是怎么学会"杯子"这个概念的:
- 婴儿摔了100次杯子,看到杯子掉到地上会碎
- 看到水杯是圆柱形的,饭碗是半球形的
- 知道装满水的杯子很重,空的杯子很轻
- 知道杯子掉在地上会发出"哐当"的声音
所有这些,都不是通过阅读"杯子说明书"学会的。婴儿通过与世界的互动,在脑海中建立了一个关于"杯子"的内部模型——这就是世界模型的核心思想。

JEPA要让AI也这样做:不依赖语言标签,而是通过观察视频、操控物体、感受因果,自主学会物理世界的规律。
杨立昆把这个过程叫作"自我监督学习"——AI像婴儿一样,通过预测被遮挡的画面、缺失的声音、下一步会发生什么,来构建对世界的理解。
试想: 你看到一个朋友伸手去接一个即将掉落的杯子——你不假思索就知道,他不会接住,杯子会碎。这种"直觉物理"能力,正是LLM完全不拥有的,也正是世界模型要赋予AI的。
三、李飞飞的视角:空间智能,让AI看见三维世界
如果说杨立昆的世界模型更关注"因果关系"和"物理规律",那李飞飞的世界模型则聚焦在一个更具体的问题上:AI如何理解三维空间?
从ImageNet到空间智能
李飞飞因为ImageNet(一个改变了AI视觉方向的大规模图像数据集)而闻名。但她的眼光早已跨越了二维图像。
2024年,她创立了World Labs,明确提出一个口号:"空间智能是AGI的关键拼图。"
什么是"空间智能"?李飞飞举过一个生动的例子:
你走进一个从未去过的房间,扫一眼——0.5秒内,你就知道:哪里有窗户、哪里可以坐下、离你最近的桌上有什么、走过去需要几步。你甚至能在之后的几天里准确回忆这个房间的布局。
这个"扫一眼就知道怎么走"的能力,就是空间智能。
我们人类在进化过程中,大脑的视觉皮层和运动皮层紧密协同,形成了对这种三维空间的直觉理解。而今天最好的AI视觉系统,可能能识别出图片里有一只"猫",但它不知道这只猫离镜头有多远、它下一秒会不会跳起来、跳起来会落在哪里。

行为本身,就是知识
李飞飞团队2024年的一项重要工作提出了一个概念——"行为基础模型"(Behavioral Foundation Model)。这个想法令人兴奋:
正如大语言模型从海量文本中学习语言模式,李飞飞团队让AI从海量的行为数据中学习行为模式——观察数以百万计的人如何行走、拿东西、推拉、互动,然后让AI学会预测:"如果一个人做出动作A,下一步会发生什么?"
这不是通过语言来理解,而是通过身体与世界的互动来理解。
生活场景类比: 想象你在厨房里切菜。你不需要每切一刀都停下来计算"刀从当前高度以5cm/s的速度下降,接触到黄瓜时的压强是..." ——你的大脑里的世界模型自动完成了这些计算。李飞飞的"行为基础模型"要教AI的就是这种"无声的直觉"。
四、当世界模型走进现实:我们站在AGI的门口
将这些思想汇聚在一起,一幅令人激动的图景逐渐清晰:
维度 | 大语言模型 | 世界模型 |
学习方式 | 阅读文本 → 输出文本 | 观察物理世界 → 理解因果规律 |
对"杯子"的理解 | 知道"杯子"的定义和用法 | 知道杯子会碎、会倒、能装水 |
对未来的预测 | 预测下一个词是什么 | 预测下一帧画面、下一步物理运动 |
拥有"常识"吗? | 有统计层面的"语言常识" | 有物理层面的"直觉常识" |
能操作现实世界吗? | 不能(没有3D空间感知) | 能(理解三维结构) |
2024-2025年,世界模型领域迎来了爆发式进展:
- OpenAI的Sora 虽然是一个视频生成模型,但它展示了令人震惊的物理世界模拟能力——至少在简单场景中,它能理解物体之间的遮挡关系、光影变化、运动轨迹。
- Google DeepMind的Genie 能从一张图片生成可交互的游戏世界,它在内部构建了世界的"隐式模型"(latent world model)。
- 李飞飞的World Labs 获得了超过2.3亿美元融资,目标直指具备空间智能的基础模型,能真正理解3D世界的结构。
- 杨立昆也一直在强调,当前的自回归式LLM终将被基于世界模型的架构取代,而他曾经带领的Meta FAIR团队曾全力推进V-JEPA等项目,让AI从视频中自主学习物理世界的表征。BTW:立昆已经离开了FAIR,与华人科学家谢赛宁等创建了专注于世界模型的公司——AMI Labs。
所有这些进展指向一个共识:只靠语言模型,永远走不到AGI。真正的AGI需要一个能理解物理世界的"心智模型"。
五、未来已经到来:一个即将诞生的新智能体
请允许我做一个小小的想象实验。
假设现在是2028年。你有一个基于世界模型的AI管家。你告诉它:"帮我把客厅重新布置一下,我想在窗边放一个大桌子。"
它不会像今天的LLM一样,给你输出一段文字:"好的,建议你买一张1.5米的桌子放在窗边。"
它会的,是:
- 走进你的客厅,用3D扫描理解空间结构——窗户的位置、光线角度、现有家具布局
- 在它的"世界模型"中模拟——把一张1.5米的桌子放在窗边,会不会挡路?光线会不会刺眼?人绕过桌子的动线是否顺畅?
- 预测你的体验——不同的摆放方式,在不同的时间给人的感觉如何?
- 然后,它真的动手去搬——因为它理解三维空间,它能控制机械臂安全地完成操作
在这个过程中,它没有读一本关于"客厅设计"的书。它只是利用它通过观察海量视频和物理世界建立起来的"世界模型",进行了推理和行动。
这才是AGI。
这听起来像科幻,但杨立昆、李飞飞、以及全球顶尖的AI实验室,正在把它变成现实。他们不是在教AI说更多的话,而是在教AI像我们一样看世界、理解世界、与世界互动。
当你看到一条狗跑向一个皮球,你的大脑会自动预测它将如何跑、会在哪里转弯、皮球被叼起来后会发生什么。你甚至不需要"思考"这件事。这种"不用想就知道"的能力,就是世界模型赋予每个三岁小孩、但至今没有赋予AI的东西。而当AI终于拥有它的时候——AGI,就真的来了。
参考文献
[1] LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. OpenReview. https://openreview.net/forum?id=BZ5a1r-kVsf
[2] LeCun, Y. (2023). A New AI Architecture: The World Model. Proceedings of the AAAI Conference on Artificial Intelligence, 37(13), 15341-15341.
[3] Ha, D., & Schmidhuber, J. (2018). World Models. arXiv preprint arXiv:1803.10122.
[4] Li, F.-F. (2024). The Dawn of Spatial Intelligence. TED 2024 Talk, Vancouver, Canada.
[5] Li, F.-F., et al. (2024). Behavioral Foundation Models: Learning from Agent Behavior. arXiv preprint.
[6] Assran, M., et al. (2023). Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
[7] Bardes, A., et al. (2024). V-JEPA: Video Joint Embedding Predictive Architecture. arXiv preprint arXiv:2402.05965.
[8] Schmidhuber, J. (1990). Making the World Differentiable: On Using Self-Supervised Fully Recurrent Neural Networks for Dynamic Reinforcement Learning and Planning in Non-Stationary Environments. Technical Report FKI-126-90, Institut für Informatik, Technische Universität München.
[9] Sutton, R. (2019). The Bitter Lesson. Incomplete Ideas.
[10] Brooks, T., et al. (2024). Video Generation Models as World Simulators (Sora). OpenAI Technical Report.
[11] Bruce, J., et al. (2024). Genie: Generative Interactive Environments. Google DeepMind, arXiv preprint arXiv:2402.15391.
[12] World Labs. (2024). Building Spatial Intelligence Foundation Models. World Labs Official Announcement.
- 作者:zion
- 链接:https://gendlee.github.io/world-model-1
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。







