From Tokens to Torques

2025-12-04

我们接近通用机器人的「ChatGPT 时刻」了吗?

Figure 03 的现实: TIME 记者在同一场 demo 里的记录

机器人往洗衣机装衣物时,连续两次把衣服掉在地上,始终不会自己捡起。

最终由工程师走上前,把衣物移出镜头,刻意移出我的视线。

But the robot’s limitations were too obvious to hide

Neo 的真相: 坦诚的 Teleop-first 路线

宣传: 像家用版 ChatGPT, 能接”家务清单”: folding laundry, organizing shelves, taking out trash…

高度依赖 远程遥操作 + 人类专家兜底, 而非真正端到端自主。

Data can solve almost all current problems.

Brett Adcock1

VLA 的泛化幻觉:从表象拟合到架构缺失

高维空间的轨迹插值

无法建模信念状态

人工标注无法收敛

现象:OOD 场景下的性能崩塌

本质:基于像素的插值拟合,缺乏结构化推理

看似泛化,其实是场景记忆

  • 视觉扰动敏感:仅改变物体材质(如透明度)、更换背景纹理或调整光照角度,推断出的动作轨迹即出现显著偏差
  • 物理参数偏移:物体位置偏离示教分布几厘米,或台面高度微调,成功率即从宣称的 90%+ 骤降至不可用状态
  • 模型并未理解物理规律,而是通过拟合条件概率 \(P(a_t \mid o_{\le t})\),在训练数据的流形附近建立平滑映射
  • 一个巨大的“软性查找表”:只有当观测 \(o_t\) 落在已有数据的密集区时,才能检索出正确的动作

VLA 的泛化幻觉:从表象拟合到架构缺失

高维空间的轨迹插值

无法建模信念状态

人工标注无法收敛

现象:长程任务中的执行中断与死锁

本质:短视的反应式策略,缺乏内部任务状态

  • 多阶段任务一偏轨就“断片”

    • 缺乏对任务阶段 / 进度的内在表示,轻微偏差就丢失上下文,后续动作序列整体崩溃
    • 策略高度依赖当前观测与示教“黄金轨迹”的相似度,一旦偏离就出现停滞、无意义抖动,无法继续往下做
  • 没有真正的开环 / 闭环纠错与自救机制

    • 无法回滚或重规划:例如抽屉卡滞时仍沿原前向轨迹硬推,导致末端执行器与环境碰撞
    • 物体处于“未完全成功”的边界状态时,策略容易陷入死锁,无法生成把任务“救回来”的修正动作
  • 只实现了”像素 → 动作”的局部反应式映射
    • 主流 VLA 使用 \(a_t \sim \pi(a_t \mid o_t)\)\(\pi(a_t \mid o_{t-k:t})\) 这类近似反应式策略
    • 等价于假设:“看到当前/最近几帧,就足够决定接下来要做什么”
  • 没有随时间演化的内部任务状态
    • 模型内部缺乏一条稳定的”任务进度条”,无法表示:我现在大概处于任务的哪一步?之前有哪些尝试失败了?世界处在怎样的中间状态?
    • 一旦执行轨迹稍微偏离示教演示,内部状态就”丢档”,后续动作序列整体崩溃

VLA 的泛化幻觉:从表象拟合到架构缺失

高维空间的轨迹插值

无法建模信念状态

人工标注无法收敛

现象:高昂的部署成本与”示教地狱”

本质:以离线监督学习应对开放世界挑战

  • 环境迁移成本极高:每一处新的部署环境(如不同家庭的厨房布局、不同工厂的光照环境),通常需要重新采集演示数据并微调模型
  • 长尾问题的数据补丁
    • 针对每一个特定的失败案例,目前的标准解法是人工采集针对性的修复数据
    • 这种”打补丁”式的工程方法导致数据集臃肿且缺乏结构化,边际收益递减
  • “持续学习”的伪命题
    • 当前的开发范式是:采集数据 → 离线训练/微调 → 冻结模型 → 部署
    • 这种设计时的学习模式,意味着机器人在运行时遇到的新情况无法即时转化为经验
  • 无法通过”蛮力”穷尽长尾分布
    • 物理世界的长尾分布是开放且无限的
    • 把通用机器人问题退化为劳动密集型的数据标注工程无法覆盖物理世界无限的复杂度

VLA 的泛化幻觉:从表象拟合到架构缺失

高维空间的轨迹插值

无法建模信念状态

人工标注无法收敛

Can data really
solve those problems?

Big World Hypothesis1

小世界:可以靠「记路径」

  • 世界的复杂度不超过 agent 的表示和算力
  • 设计者可以刻意把环境做“小”,让简单规则或查表就够用
  • 通过示教 + 轨迹插值,基本能把主要情况「提前写死」
  • 记住家里每个角落: 熟悉之后,几乎不再遇到真正的新情况

大世界:必须会「找新路」

  • 世界比 agent 大很多个数量级
  • 状态空间开放,长尾几乎无限,新情况是常态不是例外,不可能提前枚举所有轨迹和 corner case
  • agent 只能依靠抽象 + 泛化 + 在线持续学习,在运行时一边探索一边决策
  • 被扔到一片陌生的野外: 每一步都要自己发现新的路径,并随时改路

The Map is Not the Territory: 物理世界无法被简单 Token 化

  • 语言是足够好的低维压缩与投影
    • 文本与代码是人类高度抽象后的产物,Token 空间已有效过滤了物理世界的噪声
    • 对于“旁观者”视角的互联网任务,这种离散的流形表示已经足够完美
    • 预测错误通常无物理代价,模型的输入输出可以自闭环

  • 具身智能面临”无限粒度”的物理交互
    • 环境是多尺度耦合系统:宏观的光照形变、微观的摩擦与接触力学
    • 物理世界没有完美的离散化,微小扰动在连续空间中会指数级扩散
  • 决策不闭环 交互导致的数据分布偏移和非平稳性
    • 决策是对环境的主动干预,而不仅仅是预测
    • 动作会直接改变未来的状态分布
  • 感知不完备 部分可观测性
    • 传感器只能捕捉环境的部分信息,存在噪声与盲区
    • 需要通过记忆与推理来弥补感知的不足
  • 不存在足够好的低维表示 必须直面物理世界的所有复杂性

VLA: Verticalized LLM for Action

瓶颈不在「数据规模」,而在「路径不明」

路径不明 ·

Yann LeCun

The big secret… is that companies have no idea how to make their robots smart enough to be generally useful.1

模态缺位 ·

Rodney Brooks

Today’s humanoids will NOT learn dexterity in the real world, just from watching videos and doing end-to-end learning.2

资源错配 ·

国家发改委

防范重复度高的产品「扎堆」上市、研发空间被压缩等风险。3

整个行业都在堆 demo、赌未来,但缺乏可验证的技术路线

触觉、力控制、接触建模几乎空白,本质是在错误模态上放大投入

资本盲目跟风炒作,导致长周期基础研究被边缘化

Warning

结论:当技术路线本身尚不清晰时,盲目扩大数据规模并非逼近真理,而是在放大系统性风险

Ilya Sutskever 的机器人时间线

2017 · 过度乐观期

「三年内机器人应该被完全解决,AI 还能攻克大定理、拿编程竞赛冠军」1

2019 · Dactyl 高光时刻

单手还原魔方——宣传「接近人类灵巧度」的里程碑2

2021 · 关闭机器人团队

「机器人拿不到足够数据,看不到 scale 的路径」3

2023 · 「需要极大决心」

「你需要真的爱机器人: 要造几万台机器人、长期采集数据」4

2025 · 冷静悲观期

「真实世界中快速学会新技能,对机器人来说非常够不着」5

We’re moving from the age of scaling to the age of research

Let’s go back
to the age of research

From Crystallized Intelligence to Fluid Intelligence

Fluid-I 能力维度 LeCun:世界模型派 Ilya:generalization / value function 派 Sutton:RL + Big World + OaK 派
F1 新情境世界建模 & 反事实想象 单一 world model engine,用 H‑JEPA 做层级自监督预测,在潜在空间里模拟未来轨迹,再用 cost 评估,完全就是“想象后果再行动”的 System‑2。:contentReferenceoaicite:2 在 Dwarkesh 访谈里,他核心抱怨是:模型在新情境下的泛化远差于人,而人可以像学开车那样,在几小时内通过交互就形成稳定世界模型和直觉。:contentReferenceoaicite:3 Common Model 里直接有 transition model / world model 作为四大组件之一,用来在内部模拟“如果做某 action 会怎样”。OaK 进一步变成 option model:执行一个技能后会到哪、得多少回报。:contentReferenceoaicite:4
F2 长程推理 & 信用分配 明确把“用 world model 做多步模拟 + 反向传播 cost”定义为 推理 / planning(Mode‑2),然后把结果蒸馏成快速 policy(Mode‑1),这是典型长程 credit assignment 结构。:contentReferenceoaicite:5 Ilya 大篇幅讲“value function 让你在 1000 步思考后才发现方向错时,能把惩罚往前推 1000 步”,这是在为长链条推理的 credit assignment 打地基,用来支撑科研式、编程式思考。:contentReferenceoaicite:6 Sutton 的价值函数 + 模型 + planning 就是经典 RL 里的长程 credit assignment;Big World 假设下,他强调在大世界里只能靠近似、规划和价值函数来做长期决策。:contentReferenceoaicite:7
F3 小样本 / 弱监督快速适应 整个架构就是为“自监督 + 世界模型 提升样本效率”服务:通过预测未来表征而不是标签,最大化每个样本的信息利用率,目标就是人类式“看一点就会”。:contentReferenceoaicite:8 他说得很直白:“模型在样本效率和可教性上远差于人,这是最根本的问题”,并以青少年学开车为例:少量体验就掌握,而且过程几乎是 self‑supervised 的。:contentReferenceoaicite:9 Big World 论文明说:agent 太小、世界太大,不可能为每个状态学到精确值,只能用有限资源做高效近似,这天然要求极强的样本效率和泛化。:contentReferenceoaicite:10
F4 持续 / 运行期学习(runtime) 虽然论文没狂刷 “continual learning” 这个词,但训练 world model/critic 本身就是持续自监督过程,图里也允许在交互时不断微调世界模型和 critic——可以在写作里强调这一点,把它解读成走向 runtime fluid‑int 的一环。:contentReferenceoaicite:11 他的 framing:“从 scaling 的时代回到 research 的时代”,核心就是预训练吃干榨尽后,要靠 RL 和部署期继续学习来获得真正能力;他明确说未来系统会像人一样在真实任务中不停 self‑correct。:contentReferenceoaicite:12 Sutton 是最激进的 runtime 派:Big World 直接说“停止学习的 agent 在大世界里必然次优”,OaK 把“所有组件持续学习”写成设计原则——这几乎就是把 fluid intelligence 定义成 runtime property。:contentReferenceoaicite:13
F5 抽象 / 任务分解 & 组合 层级 world model + 多时间尺度预测 做抽象(短期细节 vs 长期因果),再配合 cost/actor 形成从粗到细的分层规划;你可以直接把这行命名成 “Hierarchical abstraction (a fluid‑int aspect)”。:contentReferenceoaicite:14 Ilya 这边更多是通过比喻:人类学习科研、编程时,会把任务分成阶段、自我纠错;他认为未来系统也要学会这种“自发地把长任务切成可学的中间步骤”,只是具体算法他现在不能讲。:contentReferenceoaicite:15 OaK 的 FC‑STOMP(Feature→Subtask→Option→Model→Planning)就是把“抽象、子任务和技能”写死在循环里的层级 fluid‑int:agent 不断提出自定义子任务,学成 skill(option),再用 option‑model 做高层规划。:contentReferenceoaicite:16
F6 元学习(learning to learn) LeCun 的 Configurator 模块可以看作一种系统级元学习器:它根据任务和状态来调节 perception/world‑model/cost 的参数和关注点,本质上是在“学如何在当前情境下用好已有能力”。:contentReferenceoaicite:17 访谈里他多次暗示“人类在数学、编程等新领域里的学习能力,说明我们有一种更强的 machine learning 本身”,但细节不能公开——你可以在 cell 里写:> “Postulates an undisclosed ‘better ML principle’ underpinning human‑like learning‑to‑learn.”:contentReferenceoaicite:18 Sutton 很早就强调 step‑size、自适应学习率等 meta‑learning;OaK 里还讨论给每个权重独立 step‑size 并在线调节。你可以把这归纳为:“treats learning algorithm itself as an object of optimization at runtime”。:contentReferenceoaicite:19
F1 新情境世界建模 & 反事实想象 单一 world model engine,用 H‑JEPA 做层级自监督预测,在潜在空间里模拟未来轨迹,再用 cost 评估,完全就是“想象后果再行动”的 System‑2。:contentReferenceoaicite:2 在 Dwarkesh 访谈里,他核心抱怨是:模型在新情境下的泛化远差于人,而人可以像学开车那样,在几小时内通过交互就形成稳定世界模型和直觉。:contentReferenceoaicite:3 Common Model 里直接有 transition model / world model 作为四大组件之一,用来在内部模拟“如果做某 action 会怎样”。OaK 进一步变成 option model:执行一个技能后会到哪、得多少回报。:contentReferenceoaicite:4
F2 长程推理 & 信用分配 明确把“用 world model 做多步模拟 + 反向传播 cost”定义为 推理 / planning(Mode‑2),然后把结果蒸馏成快速 policy(Mode‑1),这是典型长程 credit assignment 结构。:contentReferenceoaicite:5 Ilya 大篇幅讲“value function 让你在 1000 步思考后才发现方向错时,能把惩罚往前推 1000 步”,这是在为长链条推理的 credit assignment 打地基,用来支撑科研式、编程式思考。:contentReferenceoaicite:6 Sutton 的价值函数 + 模型 + planning 就是经典 RL 里的长程 credit assignment;Big World 假设下,他强调在大世界里只能靠近似、规划和价值函数来做长期决策。:contentReferenceoaicite:7
F3 小样本 / 弱监督快速适应 整个架构就是为“自监督 + 世界模型 提升样本效率”服务:通过预测未来表征而不是标签,最大化每个样本的信息利用率,目标就是人类式“看一点就会”。:contentReferenceoaicite:8 他说得很直白:“模型在样本效率和可教性上远差于人,这是最根本的问题”,并以青少年学开车为例:少量体验就掌握,而且过程几乎是 self‑supervised 的。:contentReferenceoaicite:9 Big World 论文明说:agent 太小、世界太大,不可能为每个状态学到精确值,只能用有限资源做高效近似,这天然要求极强的样本效率和泛化。:contentReferenceoaicite:10
F4 持续 / 运行期学习(runtime) 虽然论文没狂刷 “continual learning” 这个词,但训练 world model/critic 本身就是持续自监督过程,图里也允许在交互时不断微调世界模型和 critic——可以在写作里强调这一点,把它解读成走向 runtime fluid‑int 的一环。:contentReferenceoaicite:11 他的 framing:“从 scaling 的时代回到 research 的时代”,核心就是预训练吃干榨尽后,要靠 RL 和部署期继续学习来获得真正能力;他明确说未来系统会像人一样在真实任务中不停 self‑correct。:contentReferenceoaicite:12 Sutton 是最激进的 runtime 派:Big World 直接说“停止学习的 agent 在大世界里必然次优”,OaK 把“所有组件持续学习”写成设计原则——这几乎就是把 fluid intelligence 定义成 runtime property。:contentReferenceoaicite:13
F5 抽象 / 任务分解 & 组合 层级 world model + 多时间尺度预测 做抽象(短期细节 vs 长期因果),再配合 cost/actor 形成从粗到细的分层规划;你可以直接把这行命名成 “Hierarchical abstraction (a fluid‑int aspect)”。:contentReferenceoaicite:14 Ilya 这边更多是通过比喻:人类学习科研、编程时,会把任务分成阶段、自我纠错;他认为未来系统也要学会这种“自发地把长任务切成可学的中间步骤”,只是具体算法他现在不能讲。:contentReferenceoaicite:15 OaK 的 FC‑STOMP(Feature→Subtask→Option→Model→Planning)就是把“抽象、子任务和技能”写死在循环里的层级 fluid‑int:agent 不断提出自定义子任务,学成 skill(option),再用 option‑model 做高层规划。:contentReferenceoaicite:16
F6 元学习(learning to learn) LeCun 的 Configurator 模块可以看作一种系统级元学习器:它根据任务和状态来调节 perception/world‑model/cost 的参数和关注点,本质上是在“学如何在当前情境下用好已有能力”。:contentReferenceoaicite:17 访谈里他多次暗示“人类在数学、编程等新领域里的学习能力,说明我们有一种更强的 machine learning 本身”,但细节不能公开——你可以在 cell 里写:> “Postulates an undisclosed ‘better ML principle’ underpinning human‑like learning‑to‑learn.”:contentReferenceoaicite:18 Sutton 很早就强调 step‑size、自适应学习率等 meta‑learning;OaK 里还讨论给每个权重独立 step‑size 并在线调节。你可以把这归纳为:“treats learning algorithm itself as an object of optimization at runtime”。:contentReferenceoaicite:19