2017 · 过度乐观期
「三年内机器人应该被完全解决,AI 还能攻克大定理、拿编程竞赛冠军」1
2025-12-04
Figure 03 的现实: TIME 记者在同一场 demo 里的记录
机器人往洗衣机装衣物时,连续两次把衣服掉在地上,始终不会自己捡起。
最终由工程师走上前,把衣物移出镜头,刻意移出我的视线。
But the robot’s limitations were too obvious to hide
Neo 的真相: 坦诚的 Teleop-first 路线
宣传: 像家用版 ChatGPT, 能接”家务清单”: folding laundry, organizing shelves, taking out trash…
高度依赖 远程遥操作 + 人类专家兜底, 而非真正端到端自主。
Data can solve almost all current problems.
— Brett Adcock1
高维空间的轨迹插值
无法建模信念状态
人工标注无法收敛
现象:OOD 场景下的性能崩塌
本质:基于像素的插值拟合,缺乏结构化推理
看似泛化,其实是场景记忆
高维空间的轨迹插值
无法建模信念状态
人工标注无法收敛
现象:长程任务中的执行中断与死锁
本质:短视的反应式策略,缺乏内部任务状态
多阶段任务一偏轨就“断片”
没有真正的开环 / 闭环纠错与自救机制
高维空间的轨迹插值
无法建模信念状态
人工标注无法收敛
现象:高昂的部署成本与”示教地狱”
本质:以离线监督学习应对开放世界挑战
高维空间的轨迹插值
无法建模信念状态
人工标注无法收敛
Can data really
solve those problems?
路径不明 ·
Yann LeCun
The big secret… is that companies have no idea how to make their robots smart enough to be generally useful.1
模态缺位 ·
Rodney Brooks
Today’s humanoids will NOT learn dexterity in the real world, just from watching videos and doing end-to-end learning.2
资源错配 ·
国家发改委
防范重复度高的产品「扎堆」上市、研发空间被压缩等风险。3
整个行业都在堆 demo、赌未来,但缺乏可验证的技术路线
触觉、力控制、接触建模几乎空白,本质是在错误模态上放大投入
资本盲目跟风炒作,导致长周期基础研究被边缘化
Warning
结论:当技术路线本身尚不清晰时,盲目扩大数据规模并非逼近真理,而是在放大系统性风险
2017 · 过度乐观期
「三年内机器人应该被完全解决,AI 还能攻克大定理、拿编程竞赛冠军」1
2019 · Dactyl 高光时刻
单手还原魔方——宣传「接近人类灵巧度」的里程碑2
2021 · 关闭机器人团队
「机器人拿不到足够数据,看不到 scale 的路径」3
2023 · 「需要极大决心」
「你需要真的爱机器人: 要造几万台机器人、长期采集数据」4
2025 · 冷静悲观期
「真实世界中快速学会新技能,对机器人来说非常够不着」5
We’re moving from the age of scaling to the age of research
Let’s go back
to the age of research
| Fluid-I 能力维度 | LeCun:世界模型派 | Ilya:generalization / value function 派 | Sutton:RL + Big World + OaK 派 |
|---|---|---|---|
| F1 新情境世界建模 & 反事实想象 | 单一 world model engine,用 H‑JEPA 做层级自监督预测,在潜在空间里模拟未来轨迹,再用 cost 评估,完全就是“想象后果再行动”的 System‑2。:contentReferenceoaicite:2 | 在 Dwarkesh 访谈里,他核心抱怨是:模型在新情境下的泛化远差于人,而人可以像学开车那样,在几小时内通过交互就形成稳定世界模型和直觉。:contentReferenceoaicite:3 | Common Model 里直接有 transition model / world model 作为四大组件之一,用来在内部模拟“如果做某 action 会怎样”。OaK 进一步变成 option model:执行一个技能后会到哪、得多少回报。:contentReferenceoaicite:4 |
| F2 长程推理 & 信用分配 | 明确把“用 world model 做多步模拟 + 反向传播 cost”定义为 推理 / planning(Mode‑2),然后把结果蒸馏成快速 policy(Mode‑1),这是典型长程 credit assignment 结构。:contentReferenceoaicite:5 | Ilya 大篇幅讲“value function 让你在 1000 步思考后才发现方向错时,能把惩罚往前推 1000 步”,这是在为长链条推理的 credit assignment 打地基,用来支撑科研式、编程式思考。:contentReferenceoaicite:6 | Sutton 的价值函数 + 模型 + planning 就是经典 RL 里的长程 credit assignment;Big World 假设下,他强调在大世界里只能靠近似、规划和价值函数来做长期决策。:contentReferenceoaicite:7 |
| F3 小样本 / 弱监督快速适应 | 整个架构就是为“自监督 + 世界模型 提升样本效率”服务:通过预测未来表征而不是标签,最大化每个样本的信息利用率,目标就是人类式“看一点就会”。:contentReferenceoaicite:8 | 他说得很直白:“模型在样本效率和可教性上远差于人,这是最根本的问题”,并以青少年学开车为例:少量体验就掌握,而且过程几乎是 self‑supervised 的。:contentReferenceoaicite:9 | Big World 论文明说:agent 太小、世界太大,不可能为每个状态学到精确值,只能用有限资源做高效近似,这天然要求极强的样本效率和泛化。:contentReferenceoaicite:10 |
| F4 持续 / 运行期学习(runtime) | 虽然论文没狂刷 “continual learning” 这个词,但训练 world model/critic 本身就是持续自监督过程,图里也允许在交互时不断微调世界模型和 critic——可以在写作里强调这一点,把它解读成走向 runtime fluid‑int 的一环。:contentReferenceoaicite:11 | 他的 framing:“从 scaling 的时代回到 research 的时代”,核心就是预训练吃干榨尽后,要靠 RL 和部署期继续学习来获得真正能力;他明确说未来系统会像人一样在真实任务中不停 self‑correct。:contentReferenceoaicite:12 | Sutton 是最激进的 runtime 派:Big World 直接说“停止学习的 agent 在大世界里必然次优”,OaK 把“所有组件持续学习”写成设计原则——这几乎就是把 fluid intelligence 定义成 runtime property。:contentReferenceoaicite:13 |
| F5 抽象 / 任务分解 & 组合 | 用 层级 world model + 多时间尺度预测 做抽象(短期细节 vs 长期因果),再配合 cost/actor 形成从粗到细的分层规划;你可以直接把这行命名成 “Hierarchical abstraction (a fluid‑int aspect)”。:contentReferenceoaicite:14 | Ilya 这边更多是通过比喻:人类学习科研、编程时,会把任务分成阶段、自我纠错;他认为未来系统也要学会这种“自发地把长任务切成可学的中间步骤”,只是具体算法他现在不能讲。:contentReferenceoaicite:15 | OaK 的 FC‑STOMP(Feature→Subtask→Option→Model→Planning)就是把“抽象、子任务和技能”写死在循环里的层级 fluid‑int:agent 不断提出自定义子任务,学成 skill(option),再用 option‑model 做高层规划。:contentReferenceoaicite:16 |
| F6 元学习(learning to learn) | LeCun 的 Configurator 模块可以看作一种系统级元学习器:它根据任务和状态来调节 perception/world‑model/cost 的参数和关注点,本质上是在“学如何在当前情境下用好已有能力”。:contentReferenceoaicite:17 | 访谈里他多次暗示“人类在数学、编程等新领域里的学习能力,说明我们有一种更强的 machine learning 本身”,但细节不能公开——你可以在 cell 里写:> “Postulates an undisclosed ‘better ML principle’ underpinning human‑like learning‑to‑learn.”:contentReferenceoaicite:18 | Sutton 很早就强调 step‑size、自适应学习率等 meta‑learning;OaK 里还讨论给每个权重独立 step‑size 并在线调节。你可以把这归纳为:“treats learning algorithm itself as an object of optimization at runtime”。:contentReferenceoaicite:19 |
| — | — | — | — |
| F1 新情境世界建模 & 反事实想象 | 单一 world model engine,用 H‑JEPA 做层级自监督预测,在潜在空间里模拟未来轨迹,再用 cost 评估,完全就是“想象后果再行动”的 System‑2。:contentReferenceoaicite:2 | 在 Dwarkesh 访谈里,他核心抱怨是:模型在新情境下的泛化远差于人,而人可以像学开车那样,在几小时内通过交互就形成稳定世界模型和直觉。:contentReferenceoaicite:3 | Common Model 里直接有 transition model / world model 作为四大组件之一,用来在内部模拟“如果做某 action 会怎样”。OaK 进一步变成 option model:执行一个技能后会到哪、得多少回报。:contentReferenceoaicite:4 |
| F2 长程推理 & 信用分配 | 明确把“用 world model 做多步模拟 + 反向传播 cost”定义为 推理 / planning(Mode‑2),然后把结果蒸馏成快速 policy(Mode‑1),这是典型长程 credit assignment 结构。:contentReferenceoaicite:5 | Ilya 大篇幅讲“value function 让你在 1000 步思考后才发现方向错时,能把惩罚往前推 1000 步”,这是在为长链条推理的 credit assignment 打地基,用来支撑科研式、编程式思考。:contentReferenceoaicite:6 | Sutton 的价值函数 + 模型 + planning 就是经典 RL 里的长程 credit assignment;Big World 假设下,他强调在大世界里只能靠近似、规划和价值函数来做长期决策。:contentReferenceoaicite:7 |
| F3 小样本 / 弱监督快速适应 | 整个架构就是为“自监督 + 世界模型 提升样本效率”服务:通过预测未来表征而不是标签,最大化每个样本的信息利用率,目标就是人类式“看一点就会”。:contentReferenceoaicite:8 | 他说得很直白:“模型在样本效率和可教性上远差于人,这是最根本的问题”,并以青少年学开车为例:少量体验就掌握,而且过程几乎是 self‑supervised 的。:contentReferenceoaicite:9 | Big World 论文明说:agent 太小、世界太大,不可能为每个状态学到精确值,只能用有限资源做高效近似,这天然要求极强的样本效率和泛化。:contentReferenceoaicite:10 |
| F4 持续 / 运行期学习(runtime) | 虽然论文没狂刷 “continual learning” 这个词,但训练 world model/critic 本身就是持续自监督过程,图里也允许在交互时不断微调世界模型和 critic——可以在写作里强调这一点,把它解读成走向 runtime fluid‑int 的一环。:contentReferenceoaicite:11 | 他的 framing:“从 scaling 的时代回到 research 的时代”,核心就是预训练吃干榨尽后,要靠 RL 和部署期继续学习来获得真正能力;他明确说未来系统会像人一样在真实任务中不停 self‑correct。:contentReferenceoaicite:12 | Sutton 是最激进的 runtime 派:Big World 直接说“停止学习的 agent 在大世界里必然次优”,OaK 把“所有组件持续学习”写成设计原则——这几乎就是把 fluid intelligence 定义成 runtime property。:contentReferenceoaicite:13 |
| F5 抽象 / 任务分解 & 组合 | 用 层级 world model + 多时间尺度预测 做抽象(短期细节 vs 长期因果),再配合 cost/actor 形成从粗到细的分层规划;你可以直接把这行命名成 “Hierarchical abstraction (a fluid‑int aspect)”。:contentReferenceoaicite:14 | Ilya 这边更多是通过比喻:人类学习科研、编程时,会把任务分成阶段、自我纠错;他认为未来系统也要学会这种“自发地把长任务切成可学的中间步骤”,只是具体算法他现在不能讲。:contentReferenceoaicite:15 | OaK 的 FC‑STOMP(Feature→Subtask→Option→Model→Planning)就是把“抽象、子任务和技能”写死在循环里的层级 fluid‑int:agent 不断提出自定义子任务,学成 skill(option),再用 option‑model 做高层规划。:contentReferenceoaicite:16 |
| F6 元学习(learning to learn) | LeCun 的 Configurator 模块可以看作一种系统级元学习器:它根据任务和状态来调节 perception/world‑model/cost 的参数和关注点,本质上是在“学如何在当前情境下用好已有能力”。:contentReferenceoaicite:17 | 访谈里他多次暗示“人类在数学、编程等新领域里的学习能力,说明我们有一种更强的 machine learning 本身”,但细节不能公开——你可以在 cell 里写:> “Postulates an undisclosed ‘better ML principle’ underpinning human‑like learning‑to‑learn.”:contentReferenceoaicite:18 | Sutton 很早就强调 step‑size、自适应学习率等 meta‑learning;OaK 里还讨论给每个权重独立 step‑size 并在线调节。你可以把这归纳为:“treats learning algorithm itself as an object of optimization at runtime”。:contentReferenceoaicite:19 |