HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers

Authors: Lizhi Yang, Junheng Li, Nehar Poddar, Yiling Hou, Gio Huh, Robert Griffin, Georgia Gkioxari, Aaron D. Ames
Affiliations: California Institute of Technology (Caltech); Institute for Human & Machine Cognition (IHMC)
Venue: arXiv:2606.06493v1 [cs.RO], June 2026
Pages: 22
Keywords: Reinforcement learning for physical robot control, Task and motion planning, Humanoid whole-body control, Loco-manipulation

研究摘要

人形机器人在真实世界中的部署长期以来面临一个根本性悖论：高层任务规划器（planner）能够用自然语言或稀疏符号描述目标（如"取一杯咖啡"），但低层全身控制器（Whole-Body Controller, WBC）却要求密集的全关节运动学参考流——这种接口需要大量人类遥操作或动作捕捉数据来生成，且每新增一个技能都必须重新收集和重定向数据。这一断层使得 planner 沦为特定演示库的数据回放引擎，而非真正可泛化的推理模块。HANDOFF 这篇论文的核心洞察在于：问题的根源不在于控制器或规划器各自的能力不足，而在于二者之间的命令空间（command space）设计不当。作者提出了一种紧凑、显式、10维的任务空间接口，将 planner 与控制器解耦，使得高层模块可以用稀疏的子目标直接驱动低层全身动作，而无需任何任务特定的数据收集或模型微调。

这一命令空间由六个物理上可解释的组件构成：平面基座速度 $(v_{x}, v_{y})$ 、偏航角速度 $ω_{z}$ 、根高度 $z$ ，以及骨盆坐标系下的双侧腕部目标位置 $p_{L}^{P}$ 和 $p_{R}^{P}$ 。每个组件都对应一类现有规划器族： locomotion 栈输出 $(v_{x}, v_{y}, ω_{z})$ ；抓取规划器输出骨盆坐标系末端执行器目标；任何下蹲或伸手启发式设置 $z$ 。这种设计实现了四个关键属性：直观性（人类、几何规划器或视觉语言模型 VLM 均可直接生成有效命令）、通用性（同一接口服务于不同 loco-manipulation 任务）、模块化（规划器、感知和控制器可独立替换），以及全身表达性（紧凑命令仍能诱发协调的全身体行为）。例如，较低的 $z$ 配合前向腕部目标会诱发协调的下蹲-伸手动作；非零基座速度下的不对称腕部目标则诱发单手边走边伸行为。

然而，单一训练范式无法同时覆盖任务空间命令跟踪、协调全身操作行为和扰动恢复这三种需求。HANDOFF 的第二个核心贡献是将问题重新定义为多专家蒸馏（multi-teacher distillation）：利用三个在各自领域独立训练的专家——全身运动跟踪教师（基于重定向人体动作片段）、 locomotion 教师（基于平地速度跟踪奖励）和跌倒恢复教师（基于对抗性动作先验 AMP）——通过多教师 KL 蒸馏和上下文条件门控机制（context-conditioned gating），将它们融合为一个可部署的混合专家（Mixture-of-Experts, MoE）学生策略。在运行时，腿部在非零速度命令下跟随 locomotion 教师，手臂始终跟随运动跟踪教师（实现伸手、双手协调和下蹲），而跌倒恢复专家在特定情况下接管全身监督。三者被蒸馏到一个统一的策略中，通过单一的 10-D 接口驱动，无需运行时控制器切换。

实验结果表明，在 Unitree G1 人形机器人上，HANDOFF 的 velocity tracking 达到了与现有最先进方法（如 SONIC、AMO、FALCON）相当的水平，同时提供了最大的稳健操作工作空间（robust workspace 达 $0.31 m^{3}$ ）。更重要的是，论文通过 VLM 驱动的 agentic 规划器在真实硬件上展示了多个自然语言驱动的任务展开（pick-and-place、pick-transport-place、squat-pick、bimanual-pick-and-hand-off 等），且无需任何任务特定的数据收集或控制器微调。这意味着 HANDOFF 不仅在控制器层面解决了接口问题，更在整个 planner-controller 栈层面证明了紧凑任务空间接口的可行性和实用性。

从更广阔的视角看，HANDOFF 代表了 embodied AI 领域一个重要的范式转变：从"为每个任务收集数据并重定向到特定控制器"的演示驱动模式，转向"定义通用任务空间接口并蒸馏互补专家"的模块化蒸馏模式。这一思路与软件工程中 API 设计的哲学高度一致——好的接口应当隐藏实现细节，暴露最小但足够表达力的操作原语。对于 agent architecture 的研究者而言，HANDOFF 提供了一个具体的案例：如何通过精心设计的命令空间，将高层认知（VLM 规划）与低层物理控制（RL 策略）无缝衔接，同时保持各自的模块化和可替换性。

理论框架

HANDOFF 的理论根基可以追溯到三个相互交织的研究脉络：强化学习中的策略蒸馏（policy distillation）、人形机器人全身控制的运动跟踪范式（motion-tracking paradigm），以及混合专家模型（Mixture-of-Experts, MoE）在控制策略中的路由机制。理解这些脉络的交汇，是把握 HANDOFF 理论贡献的关键。

运动跟踪范式的局限性构成了问题的起点。在 DeepMimic（Peng et al., 2018）开启的数据驱动运动模仿时代之后，人形机器人全身控制的主流方法演变为运动跟踪 WBC：控制器接收密集的全关节参考角度流（通常为 29 维），并训练策略来跟踪这些参考。TWIST2、SONIC、HOVER 等近期工作在数据规模、实时重定向和残差学习方面不断推进，但其核心假设始终未变——planner 必须能够生成密集的全身体运动学流。这一假设在理论上限制了 planner 的自主性：它不能是一个通用的语言模型或视觉语言模型，而必须是一个与特定动作库绑定的数据回放引擎。正如论文所指出的，"a controller is only as useful as the commands a planner can realistically produce"。这一限制在概念上类似于早期计算机系统中，应用程序必须直接操作硬件寄存器——缺乏抽象层使得系统难以扩展和通用化。

策略蒸馏的理论为融合互补专家提供了数学工具。Hinton、Vinyals 和 Dean 在 2015 年提出的知识蒸馏框架通过最小化学生策略与教师策略之间的 KL 散度来传递知识：

D_{K L} (π_{θ} ∥ π_{t e a c h e r}) = E_{s \sim π_{θ}} [\log \frac{π_{θ} (a | s)}{π_{t e a c h e r} (a | s)}]

在 HANDOFF 中，这一框架被扩展为多教师上下文条件蒸馏。学生策略 $π_{θ}$ 同时面对三个教师——全身运动跟踪教师 $π_{w b c}$ 、 locomotion 教师 $π_{l o c o}$ 和跌倒恢复教师 $π_{a m p}$ ——但不是在所有状态下同时向所有教师学习，而是由一个上下文信号 $x_{t} = (∥ c_{t}^{v e l} ∥, {recover}_{t})$ 决定每个教师监督哪个动作切片。这种设计本质上是一种结构化蒸馏：它将动作空间划分为身体切片 $a^{B} = a_{0 : 15}$ （腿+腰）和手臂切片 $a^{A} = a_{15 : 29}$ ，然后对不同的切片施加不同的教师监督。数学上，学生的总损失为：

L = L_{P P O} + λ_{B} L_{K L}^{B} + λ_{A} L_{K L}^{A} + λ_{A M P} L_{K L}^{A M P} + β_{L B} L_{L B} + β_{R} L_{R}

其中 $L_{K L}^{B}$ 是身体切片的 KL 损失，定义为 WBC 和 locomotion 教师的凸组合：

L_{K L}^{B} = (1 - α) D_{K L} (π_{θ}^{B} ∥ π_{w b c}^{B}) + α D_{K L} (π_{θ}^{B} ∥ π_{l o c o}^{B})

α = σ (\frac{∥ c_{t}^{v e l} ∥ - 0.1}{0.02})

这里的 $σ$ 是 sigmoid 函数， $∥ c_{t}^{v e l} ∥$ 是命令速度的大小。当速度低于 0.1 m/s 时， $α \approx 0$ ，身体切片几乎完全由 WBC 教师监督；当速度高于阈值时， $α \approx 1$ ，转向 locomotion 教师。 $0.02$ 的宽度参数确保过渡锐利但可微。这种连续上下文门控与离散上下文门控（跌倒恢复标志 ${recover}_{t}$ 激活 AMP 教师）并存，构成了论文的核心算法创新。

混合专家模型为蒸馏提供了架构支撑。Shazeer 等人 2017 年提出的稀疏门控 MoE 层在语言模型中展示了专家路由的威力，但 HANDOFF 将其应用于控制策略中的跨教师路由。学生策略包含三个专家网络，共享一个 64 维的时序卷积编码器潜变量，但各自产生不同的动作均值。门控网络是一个小型 MLP（128→64），将共享潜变量映射到 3 路 softmax。关键的是，HANDOFF 使用软路由（soft routing）而非硬 top-k 路由：所有三个专家在每个时间步都被评估，其动作均值由门控权重混合。这保持了策略的完全可微性，并避免了硬路由在门控不确定时引入的双模态伪影。论文还引入了两个路由塑形损失：一个子集感知的负载均衡损失（确保 WBC 和 locomotion 专家在非恢复样本上均匀分担任务），以及一个恢复路由损失（在恢复激活样本上将门控质量推向恢复专家）。

从理论上看，HANDOFF 的上下文条件蒸馏可以被理解为一种多任务学习中的任务条件化（task conditioning）策略，但与传统多任务学习的不同之处在于，"任务"不是由数据集标签定义的，而是由运行时命令信号的物理语义动态决定的。WBC 教师提供的是姿态和协调的先验（prior），locomotion 教师提供的是速度跟踪的可靠性，AMP 教师提供的是扰动恢复的鲁棒性。学生策略通过 KL 散度将这些互补的"知识源"融合，而非通过数据混合或参数共享。这种视角将 HANDOFF 与近期的专家到通才蒸馏工作（如 From Experts to a Generalist, NeurIPS 2026）联系起来，但 HANDOFF 的独特之处在于其接口驱动的异质性：蒸馏不是为了覆盖更多动作模式，而是为了在紧凑接口下协调不同物理机制（运动跟踪 vs. 速度跟踪 vs. 跌倒恢复）之间的冲突。

技术架构

HANDOFF 的技术架构是一个精心设计的四层系统：教师层、蒸馏层、学生策略层和 agentic 规划层。每一层都在解决特定的工程问题，且层与层之间通过明确的接口解耦。

教师层的核心设计哲学是"独立训练、互补覆盖"。三个教师各自在自己的领域独立训练，使用 PPO 算法和不对称 actor-critic 架构，但它们的观察空间、奖励结构和训练数据截然不同。全身运动跟踪教师（WBC teacher）是一个 29-DoF 策略，在重定向的人体动作片段（BONES-SEED 数据集）上训练，接收 11 帧本体感知历史加上当前片段帧的 29-D 参考关节角度。其奖励栈核心是跟踪精度——关节角度、关节速度、根位置、根旋转、根线速度、根角速度、关键身体点（手腕、膝盖、脚踝、肘部、躯干）的跟踪——通过指数核函数施加。然而，原始动作数据包含动态不可行的下蹲帧（质心投影超出支撑多边形），因此论文引入了一个闭合形式 CBF（Control Barrier Function）投影在静态压力中心（CoP）裕度上进行修正。这一过滤器的数学表达是一个 7 维关节修正子空间（双侧髋俯仰、踝俯仰、踝横滚和腰俯仰）上的半空间投影，通过最小努力修正将不安全帧投影到安全集：

u^{*} (q) = max (0, \frac{h_{t g t} - h (q)}{∥ a (q) ∥_{2}}) a (q), a (q) = E^{⊤} [J_{c, x y}^{c c}]^{⊤} \nabla_{ξ} h

其中 $h$ 是静态 CoP 到支撑多边形的安全距离， $J_{c, x y}^{c c}$ 是在双脚刚性约束下的接触一致质心雅可比矩阵。这个过滤器不仅离线修正训练数据，还以速度空间形式部署在推理时，确保学到的下蹲行为在真实平台上得以保留。

Locomotion 教师是一个 15-DoF 身体切片（腿+腰）策略，在平地环境中训练，手臂由课程混合的动作数据驱动以应对下游蒸馏中的手臂引起的 CoM 偏移。其奖励栈围绕速度跟踪和步态/姿态塑造构建，包含线速度跟踪、角速度跟踪、足部间隙、足部摆动高度、站立姿态、平足惩罚、步态相位接触匹配等项。跌倒恢复教师则基于 AMP（Adversarial Motion Prior）框架，在 locomotion 和配对的跌倒-恢复序列的混合数据上训练，通过判别器奖励和小的躯干锚定任务奖励的组合来塑造恢复行为。值得注意的是，高达 40% 的环境在重置时以延迟跌倒状态生成，以确保恢复分布得到充分代表。

蒸馏层是 HANDOFF 最核心的技术创新点。学生策略接收 planner 发出的 10-D 命令 $c_{t} = [v_{x}, v_{y}, ω_{z}, z, p_{L}^{P}, p_{R}^{P}]$ 和 11 帧本体感知历史，输出 29-D 动作。其架构是一个宽 MLP 主干（512→512→256→128，Swish 激活 + LayerNorm），本体感知历史通过 1-D 时序卷积编码为 64-D 潜变量，而规划器接口块通过一个 128-D 运动潜变量进入。MoE 头包含三个专家，每个是 256→128 的 MLP，产生动作均值；log-std 在专家间共享。门控网络是 128→64 的 MLP，映射共享潜变量到 3 路 softmax。

蒸馏的上下文条件机制在工程上极为精巧。身体切片的 KL 监督是一个连续上下文凸组合：当命令速度低于 0.1 m/s 时，WBC 教师主导（保留姿态和协调）；当速度升高时，locomotion 教师接管（确保速度跟踪精度）。手臂切片始终由 WBC 教师锚定，因为在恢复情况下 AMP 教师接管时，手臂仍需要保持操作能力。跌倒恢复教师的 KL 通过离散掩码仅作用于恢复激活样本： $L_{K L}^{A M P} = \frac{\sum_{t} 1 [{recover}_{t}] D_{K L} (π_{θ} ∥ π_{a m p})_{t}}{\sum_{t} 1 [{recover}_{t}] d}$ 。这种设计确保了恢复行为仅在需要时被蒸馏，而不会干扰正常 loco-manipulation 行为。

KL 系数采用余弦退火调度：在最初的 60,000 更新步中， $λ_{B}$ 从 0.4 降至 0.2， $λ_{A}$ 从 0.1 降至 0.05， $λ_{A M P}$ 从 0.4 降至 0.2。这种渐进式放松让学生先充分学习教师知识，然后逐渐允许 PPO 任务奖励主导策略优化。值得注意的是，手臂系数 $λ_{A}$ 故意小于身体系数 $λ_{B}$ ，这是为了让身体教师保持对 locomotion 稳定性的控制，而手臂则有更多自由度来适应操作任务。

Agentic 规划层展示了 10-D 接口的实际应用价值。规划器栈（图 4）从自然语言指令开始，由高层推理器分解为原子任务（正则解析 + LLM 回退）；然后 VLM 将预测的 2D 点和边界框投影到 RGB-D 点云上，发出骨盆坐标系路标点；路标点跟踪器从中推导出 $(v_{x}, v_{y}, ω_{z})$ ；接近目标时，技能选择器发出根高度 $z$ 和双侧腕部目标 $p_{L}^{P}, p_{R}^{P}$ ，并附带简单的运动学校正使夹持器水平对齐抓取表面。整个规划器以 0.001 Hz（高层推理）、0.1 Hz（VLM 检测）和 1-50 Hz（技能选择器）的多频率运行，产生的 10-D 命令流以 50 Hz 送入控制器，控制器以 500 Hz 在硬件上执行关节级跟踪。

硬件部署的细节同样值得关注。真实平台是配备 Dex1-1 拟人夹持器的 Unitree G1（29 DoF），头部安装 ZED-M 立体 RGB-D 相机，背部安装 Nvidia Jetson Thor 运行完整的 onboard 栈——50 Hz RL 控制器、agentic 规划器和本地 VLM 推理（可选 ChatGPT API 回退通过 Wi-Fi）。Jetson + 电源 + 夹持器负载在模拟器中被建模为刚性质量并纳入领域随机化，确保部署策略在其训练质量分布内。整个系统由单个 140W USB-PD 移动电源供电，实现了完全无束缚运行。

实验评估

HANDOFF 的实验设计围绕两个核心问题展开：其一，10-D 紧凑接口是否能在不牺牲控制性能的前提下实现？其二，这个接口能否被真实的 agentic 规划器驱动以完成多样化的 loco-manipulation 任务？实验从消融研究、SOTA 对比和端到端部署三个维度给出了肯定的答案。

消融研究展示了每个技术组件的增量贡献。实验从"Direct"基线开始（仅运动跟踪教师），然后逐步添加 locomotion 教师（+ Dual teacher）、随机命令训练（+ RandCmd）、上下文分割 KL + MoE（Ours）、AMP 恢复教师（Ours+Rec.）、稳定性奖励栈（Ours+Stab.），以及两者的组合（Ours+Stab.+Rec.）。表 2a 的定量结果清晰地揭示了这一递进关系：

| 配置 | $| Δ v_{x} |$ (m/s) | $| Δ v_{y} |$ (m/s) | $| Δ ω_{z} |$ (rad/s) | Robust WS (m³) |
|---|---|---|---|---|
| Direct | 0.29 | 0.43 | 0.08 | 0.20 |
| + Dual teacher | 0.14 | 0.25 | 0.09 | 0.31 |
| + RandCmd | 0.14 | 0.13 | 0.05 | 0.29 |
| + Split KL + MoE (Ours) | 0.07 | 0.14 | 0.04 | 0.27 |
| + AMP recovery (Ours+Rec.) | 0.07 | 0.15 | 0.05 | 0.26 |
| + Stability (Ours+Stab.) | 0.07 | 0.18 | 0.04 | 0.31 |
| + Stab. + Rec. (Ours+Stab.+Rec.) | 0.06 | 0.18 | 0.06 | 0.31 |

从 Direct 到 + Dual teacher 的跨越最为显著：locomotion 教师的加入使 $| Δ v_{x} |$ 从 0.29 骤降至 0.14，几乎减半。这是因为运动跟踪教师的数据先验在速度跟踪上表现退化，而 locomotion 教师专门优化了这一点。随机命令训练（+ RandCmd）进一步将 $| Δ v_{y} |$ 从 0.25 降至 0.13，表明在训练期间暴露策略于更广泛的命令分布增强了泛化能力。上下文分割 KL + MoE（Ours）的引入将 $| Δ v_{x} |$ 进一步降至 0.07，这是关键的一步——它意味着 MoE 路由和切片 KL 成功地协调了两位教师之间的竞争，而不是简单地将它们的监督叠加。AMP 恢复教师的加入并未显著改善速度跟踪（这是预期的，因为恢复教师仅在特定情况下激活），但赋予了策略一种二进制能力：生存能力。稳定性奖励栈（+Stab.）将稳健工作空间推至 0.31 m³，与 + Dual teacher 相当，但速度跟踪精度远超后者。最终配置（Ours+Stab.+Rec.）在速度跟踪和工作空间之间达到了最佳平衡。

与 SOTA 的对比实验证明了 HANDOFF 在紧凑接口下的竞争力。由于现有控制器不原生暴露骨盆坐标系腕部目标，论文为每个基线配备了基于 mink 的差分 IK 头作为适配器。这种适配器对基线是有利的——它在瞬时笛卡尔目标存在时精确求解——但仍增加了外部参考生成层，且不保证动态全身可行性。即便如此，HANDOFF 的 velocity tracking 在所有轴上均处于 SOTA 集群内，同时提供了最大的稳健工作空间（0.31 m³）：

| 方法 | $| Δ v_{x} |$ | $| Δ v_{y} |$ | $| Δ ω_{z} |$ | Feas. (%) | Robust WS (m³) |
|---|---|---|---|---|---|
| FALCON | 0.07 | 0.10 | 0.07 | 35.5 | 0.06 |
| OpenHomie | 0.06 | 0.12 | 0.10 | 62.9 | 0.15 |
| AMO | 0.06 | 0.19 | 0.01 | 80.9 | 0.22 |
| SONIC | 0.03 | 0.15 | 0.02 | 89.8 | 0.26 |
| Ours | 0.07 | 0.14 | 0.04 | 87.1 | 0.27 |
| Ours + Rec. | 0.07 | 0.15 | 0.05 | 92.0 | 0.26 |
| Ours + Stab. | 0.07 | 0.18 | 0.04 | 97.7 | 0.31 |
| Ours + Stab. + Rec. | 0.06 | 0.18 | 0.06 | 90.8 | 0.31 |

SONIC 在 $| Δ v_{x} |$ 和 $| Δ ω_{z} |$ 上略优于 HANDOFF，但差距很小（0.03 vs. 0.06 和 0.02 vs. 0.04），而 HANDOFF 提供了更大的稳健工作空间。更关键的是，SONIC 需要密集的全关节运动学参考流，而 HANDOFF 只需要 10-D 命令。AMO 在偏航跟踪上表现最佳（ $| Δ ω_{z} | = 0.01$ ），但在侧向速度上表现较差（ $| Δ v_{y} | = 0.19$ ）。FALCON 和 OpenHomie 的 feasibility 分别仅为 35.5% 和 62.9%，远低于 HANDOFF 的 97.7%（+Stab. 配置），这说明它们在面对大范围腕部目标采样时更容易失败或跌倒。Ours+Stab. 的 97.7% feasibility 意味着在 2000 个发现目标和 400 个精度目标的采样中，几乎所有试验都满足腕部误差 < 15 cm、无跌倒且骨盆漂移 < 25 cm 的严格条件——这是稳健 loco-manipulation 的强有力证据。

端到端 agentic 部署实验验证了 10-D 接口的实际可用性。在模拟中，论文展示了跌倒后的任务延续：同一 10-D 命令流，无需控制器端修改，即可在跌倒后自动恢复并继续任务——这只有在恢复专家被蒸馏进统一策略时才可能。在真实硬件上，Unitree G1 完成了多个任务：pick-and-place、pick-transport-place、squat-pick、bimanual-pick-and-hand-off 和 bilateral pick-and-place。这些任务由同一个控制器驱动，仅通过 planner 发出不同的 10-D 命令序列来实现。论文强调了一个重要的方法论立场：定量声明仅针对控制器及其接口，而 agentic 规划器是该接口的一个代表性实现。硬件展开表明，这种接口可以在无束缚的真实机器人栈中实例化，而无需任务特定的控制器重训练。

评估协议本身也值得分析。Velocity tracking 通过在 $[- 1, 1]$ 范围内逐轴扫描速度命令并报告命令与实现基座扭转分量之间的平均绝对误差来评估。Manipulation workspace 通过在骨盆坐标系内的 $[- 0.6, 0.6]^{3}$ m 空间中均匀采样双侧腕部目标来评估，每个目标经过 1 秒默认命令预热、2 秒稳定和 4 秒测量窗口。Feasibility 的判定条件极为严格：双侧腕部在测量期间始终保持在目标 15 cm 内、策略不跌倒、骨盆水平漂移不超过 25 cm。Robust workspace 定义为 hull volume × feasible fraction，并限制在前半空间 $x \geq 0$ （因为所有 loco-manipulation 任务都发生在机器人前方）。所有基线和 HANDOFF 变体在相同的目标集（种子 42）上评估，确保了公平比较。

案例研究

论文中最具启发性的案例是 VLM 驱动的"取物-传递"（bimanual-pick-and-hand-off）任务。在这一任务中，机器人需要双手分别抓取两个物体，然后将其中一个传递给另一只手或放置到指定位置。这一任务的复杂性在于它要求：非对称的双手协调（一只手在较高位置抓取，另一只手在较低位置准备接收）、可能的基座移动（如果物体不在伸手范围内），以及全身姿态调整（下蹲或倾斜以扩展可达范围）。

在 HANDOFF 的框架下，这一任务被分解为一系列 10-D 命令序列。VLM 首先检测物体的 2D 位置和边界框，然后将这些投影到 RGB-D 点云上获得骨盆坐标系路标点。规划器生成如下命令流： $(v_{x}, v_{y}, ω_{z})$ 将基座移动到物体附近；接近后， $z$ 降低以诱发下蹲， $p_{L}^{P}$ 和 $p_{R}^{P}$ 分别指向两个物体；抓取完成后， $z$ 升高，基座移动到新位置，然后 $p_{L}^{P}$ 或 $p_{R}^{P}$ 调整以完成传递或放置。关键是，整个任务流仅由 10-D 数字序列构成，控制器内部自动将这些稀疏命令转化为 29 个关节的协调运动——髋关节俯仰以配合下蹲、踝关节调整以保持平衡、肩部旋转以实现伸手、肘关节弯曲以精确对准目标。

另一个值得深入分析的案例是跌倒后的任务延续。在传统人形机器人系统中，跌倒通常意味着任务终止或人工干预。HANDOFF 的 Ours+Rec. 配置通过将 AMP 恢复教师蒸馏到统一策略中，使得机器人能够在跌倒后自动恢复并继续执行剩余的 10-D 命令流。这一能力在模拟中得到了展示：机器人被故意推倒，触发恢复标志；恢复专家接管，通过滚动或爬行动作重新站立；恢复标志关闭，策略无缝切换回正常的 loco-manipulation 模式，继续跟随 planner 的命令。这种从扰动中恢复的韧性（resilience）对于真实世界部署至关重要，因为在非结构化的家庭或工业环境中，跌倒是不可避免的。

从论文的实验细节中还可以发现一个有趣的模式：稳定性奖励栈的引入显著提高了 feasibility（从 87.1% 到 97.7%），但对速度跟踪精度有轻微负面影响（ $| Δ v_{y} |$ 从 0.14 升至 0.18）。这表明在全身控制中，平衡稳定性和操作精度之间存在权衡。稳定性奖励通过 CoM 在支撑多边形内、捕获点在支撑多边形内、踝-髋-步策略层次和动量变化惩罚来塑造平衡行为，这些项鼓励更保守的姿态，从而牺牲了一定的速度跟踪侵略性。然而，对于真实世界部署而言，97.7% 的 feasibility 远比 0.14 vs. 0.18 的速度跟踪差异更重要——一个经常跌倒的控制器即使在速度跟踪上完美也无济于事。

综合价值与局限

HANDOFF 的理论价值在于它为 embodied AI 的 planner-controller 接口问题提供了一个原则性的解决方案。现有文献要么将 planner 绑死在密集运动学参考上（丧失通用性），要么通过分裂架构实现紧凑 locomotion 命令但牺牲全身协调性（如 HOMIE/FALCON 仍需要上臂关节参考），要么放弃显式接口而采用潜在动作空间（如 LeVERB 的"动词"词汇，但丧失了 planner 的模块化）。HANDOFF 通过蒸馏互补专家到统一策略中，首次实现了紧凑、显式、全身表达的接口四者的统一。这一思路超越了人形机器人领域，对任何需要高层规划与低层控制衔接的 agentic 系统都有启发意义——无论是机械臂、无人机还是自动驾驶车辆。

从实践角度看，HANDOFF 的模块化可扩展性是其最大优势。上下文条件蒸馏机制具有"即插即用"特性：一个新的专家（如地形适应专家、重载专家、接触感知专家）只需作为新的教师头和新的上下文通道接入，无需修改现有教师或命令接口。这种设计哲学类似于操作系统中的驱动程序模型——新硬件只需实现标准接口即可被系统识别和使用。对于 rapidly evolving 的人形机器人领域，这种可扩展性至关重要，因为新的 embodiment、新的传感器和新的任务需求不断涌现。

然而，HANDOFF 也存在明显的局限性。首先，腕部目标仅为 3-D 位置而非完整的 6-D 姿态（位置 + 方向），这意味着规划器无法直接控制抓取器的方向。论文通过运行时运动学校正来处理工具坐标系残差，但这增加了规划器的复杂性。完整的 6-D 跟踪是作者明确指出的未来工作方向。其次，感知系统的限制：硬件实验仅使用单个固定姿态的头部安装 RGB-D 相机，限制了感知范围到前方视野。云台头部和腕部相机将显著扩展机器人的感知能力，但这超出了当前工作的范围。第三，专家覆盖的局限性：当前的三位教师集虽然广泛，但并非穷尽。地形适应、接触力控制、重载操作等场景尚未覆盖，需要未来的专家来扩展。第四，模拟到真实的差距：虽然论文通过领域随机化和质量分布建模来缩小 sim-to-real 差距，但真实世界的摩擦、接触动力学和未建模的扰动仍然可能挑战策略的鲁棒性。硬件演示中的任务范围（ pick-and-place、传递等）虽然多样，但仍属于相对结构化的场景，在真正非结构化的家庭环境中的表现尚待验证。

从更批判性的视角看，HANDOFF 的评估主要基于物理指标（velocity tracking error、workspace volume、feasibility），而非任务完成率或用户满意度。虽然这些指标为控制器性能提供了客观基准，但它们无法完全捕捉真实世界部署中的实际效用。例如，一个 feasibility 为 97.7% 的控制器在 100 次试验中仍有约 2-3 次失败，对于安全关键应用（如辅助老年人或工业协作）而言，这一失败率可能过高。此外，VLM 规划器的可靠性并未被定量评估——虽然视频展示了成功的展开，但失败率、重试次数和平均任务完成时间等关键指标未在论文中报告。

延伸阅读与思考

HANDOFF 的理论脉络与多篇近期重要工作紧密相连。在运动跟踪 WBC 方向上，TWIST2（Ze et al., 2025）和 SONIC（Luo et al., 2025）代表了当前数据驱动全身控制的最高水平，它们通过大规模数据收集和残差学习不断提升跟踪精度，但均未解决 planner 接口问题。BeyondMimic（Liao et al., 2025）通过引导扩散模型从运动跟踪扩展到多样化控制，但仍需要密集参考。HOVER（He et al., 2025）提出了多模式运动跟踪，但其接口仍是 ~80 维的运动学掩码。在分裂架构方向上，HOMIE（Ben et al., 2025）和 FALCON（Zhang et al., 2025）通过 cockpit 或力自适应机制实现了上下半身分离，但上臂仍需要密集关节参考。AMO（Li et al., 2025）通过动态优化的运动参考混合了 RL 和优化，但同样面临参考生成问题。在专家蒸馏方向上，GMT（Chen et al., 2025）通过门控运动 MoE 改进了运动跟踪，但门控基于单一运动流形的聚类而非跨教师机制。最接近 HANDOFF 的近期工作可能是 From Experts to a Generalist（Wang et al., NeurIPS 2026）和 Embodiment-Aware Generalist Specialist Distillation（Peng et al., 2026），但 HANDOFF 的独特贡献在于其接口驱动的蒸馏动机：蒸馏不是为了覆盖更多动作模式，而是为了协调不同物理机制（运动跟踪 vs. 速度跟踪 vs. 恢复）在紧凑接口下的冲突。

在VLM/VLA 驱动的机器人控制方向上，RT-2（Zitkovich et al., 2023）和 OpenVLA（Kim et al., 2025）训练单一 Transformer 直接输出低级动作，但它们的动作空间通常固定且缺乏全身协调性。WholeBodyVLA（Jiang et al., 2025）和 Being-0（Yuan et al., 2025）尝试将 VLM 与模块化技能库结合，但技能库的扩展仍需每个技能的数据收集。HANDOFF 的 10-D 接口可以被这些 VLA 直接输出，而无需任何 per-method 重定向或控制器微调，这使得它成为 VLA 到真实机器人硬件的潜在"翻译层"。

未来研究方向上，HANDOFF 打开了多个令人兴奋的可能性。第一，6-D 腕部目标扩展：将当前的位置目标扩展到包含方向的完整 6-D 姿态，将显著增强操作能力，特别是在需要精确工具对准或插入任务的场景。第二，多专家扩展：地形适应专家（斜坡、楼梯、不平地面）、接触力感知专家（精密装配、柔顺应操作）、重载专家（搬运重物时的平衡调整）等都可以通过相同的上下文条件蒸馏机制接入。第三，VLM 规划器的端到端优化：当前规划器是一个模块化栈（高层推理 + VLM 检测 + 路点跟踪 + 技能选择），未来可以探索端到端训练 planner 以直接输出最优 10-D 命令序列。第四，多机器人协调：10-D 接口的标准化使得多个 HANDOFF 控制器可以在协作任务中通过相同的命令语言相互通信。第五，sim-to-real 的进一步提升：系统性地识别和建模真实世界中的未建模扰动（如地面滑动、外力碰撞、电机过热）仍是 open problem。

从更抽象的视角反思，HANDOFF 让我思考一个更深层的问题：在 embodied AI 中，什么是"好的接口"？ 论文给出的答案是：好的接口应该同时满足四个属性——直观、通用、模块化和全身表达。这与计算机科学中抽象层设计的经典原则（如操作系统中的系统调用、网络中的协议栈）高度一致。然而，在物理机器人领域，这种抽象远比数字系统困难，因为物理世界的约束（动力学、摩擦、重力）无法被完全抽象掉。HANDOFF 的贡献在于证明了通过蒸馏互补专家到统一策略，可以在保持物理可行性的同时实现有效的抽象。这一思路可能不仅适用于人形机器人，也可能为其他具身智能体（如四足机器人、机械臂、自动驾驶车辆）的 planner-controller 接口设计提供方法论指导。

最后，HANDOFF 也让我反思 agent architecture 中的一个核心 tension：模块化 vs. 端到端优化。模块化设计（如 HANDOFF 的分离 planner、接口和控制器）提供了可解释性、可替换性和可扩展性，但可能牺牲端到端最优性；端到端训练（如 VLA 直接输出关节角度）可能在特定任务上表现更好，但丧失了跨任务泛化和故障诊断能力。HANDOFF 的蒸馏框架在某种程度上融合了二者：学生策略是端到端训练的（从 10-D 命令到 29-D 动作），但其教师是模块化的专家，且接口本身是一个精心设计的模块化抽象。这种"模块化教师、端到端学生"的混合架构可能是未来 agentic 系统设计的一个重要范式。

笔记创建时间: 2026-06-08
阅读方式: L2 深度阅读

Topics: