HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers
Authors: Lizhi Yang, Junheng Li, Nehar Poddar, Yiling Hou, Gio Huh, Robert Griffin, Georgia Gkioxari, Aaron D. Ames
Affiliations: California Institute of Technology (Caltech); Institute for Human & Machine Cognition (IHMC)
Venue: arXiv:2606.06493v1 [cs.RO], June 2026
Pages: 22
Keywords: Reinforcement learning for physical robot control, Task and motion planning, Humanoid whole-body control, Loco-manipulation
研究摘要
人形机器人在真实世界中的部署长期以来面临一个根本性悖论:高层任务规划器(planner)能够用自然语言或稀疏符号描述目标(如"取一杯咖啡"),但低层全身控制器(Whole-Body Controller, WBC)却要求密集的全关节运动学参考流——这种接口需要大量人类遥操作或动作捕捉数据来生成,且每新增一个技能都必须重新收集和重定向数据。这一断层使得 planner 沦为特定演示库的数据回放引擎,而非真正可泛化的推理模块。HANDOFF 这篇论文的核心洞察在于:问题的根源不在于控制器或规划器各自的能力不足,而在于二者之间的命令空间(command space)设计不当。作者提出了一种紧凑、显式、10维的任务空间接口,将 planner 与控制器解耦,使得高层模块可以用稀疏的子目标直接驱动低层全身动作,而无需任何任务特定的数据收集或模型微调。
这一命令空间由六个物理上可解释的组件构成:平面基座速度
然而,单一训练范式无法同时覆盖任务空间命令跟踪、协调全身操作行为和扰动恢复这三种需求。HANDOFF 的第二个核心贡献是将问题重新定义为多专家蒸馏(multi-teacher distillation):利用三个在各自领域独立训练的专家——全身运动跟踪教师(基于重定向人体动作片段)、 locomotion 教师(基于平地速度跟踪奖励)和跌倒恢复教师(基于对抗性动作先验 AMP)——通过多教师 KL 蒸馏和上下文条件门控机制(context-conditioned gating),将它们融合为一个可部署的混合专家(Mixture-of-Experts, MoE)学生策略。在运行时,腿部在非零速度命令下跟随 locomotion 教师,手臂始终跟随运动跟踪教师(实现伸手、双手协调和下蹲),而跌倒恢复专家在特定情况下接管全身监督。三者被蒸馏到一个统一的策略中,通过单一的 10-D 接口驱动,无需运行时控制器切换。
实验结果表明,在 Unitree G1 人形机器人上,HANDOFF 的 velocity tracking 达到了与现有最先进方法(如 SONIC、AMO、FALCON)相当的水平,同时提供了最大的稳健操作工作空间(robust workspace 达
从更广阔的视角看,HANDOFF 代表了 embodied AI 领域一个重要的范式转变:从"为每个任务收集数据并重定向到特定控制器"的演示驱动模式,转向"定义通用任务空间接口并蒸馏互补专家"的模块化蒸馏模式。这一思路与软件工程中 API 设计的哲学高度一致——好的接口应当隐藏实现细节,暴露最小但足够表达力的操作原语。对于 agent architecture 的研究者而言,HANDOFF 提供了一个具体的案例:如何通过精心设计的命令空间,将高层认知(VLM 规划)与低层物理控制(RL 策略)无缝衔接,同时保持各自的模块化和可替换性。
理论框架
HANDOFF 的理论根基可以追溯到三个相互交织的研究脉络:强化学习中的策略蒸馏(policy distillation)、人形机器人全身控制的运动跟踪范式(motion-tracking paradigm),以及混合专家模型(Mixture-of-Experts, MoE)在控制策略中的路由机制。理解这些脉络的交汇,是把握 HANDOFF 理论贡献的关键。
运动跟踪范式的局限性构成了问题的起点。在 DeepMimic(Peng et al., 2018)开启的数据驱动运动模仿时代之后,人形机器人全身控制的主流方法演变为运动跟踪 WBC:控制器接收密集的全关节参考角度流(通常为 29 维),并训练策略来跟踪这些参考。TWIST2、SONIC、HOVER 等近期工作在数据规模、实时重定向和残差学习方面不断推进,但其核心假设始终未变——planner 必须能够生成密集的全身体运动学流。这一假设在理论上限制了 planner 的自主性:它不能是一个通用的语言模型或视觉语言模型,而必须是一个与特定动作库绑定的数据回放引擎。正如论文所指出的,"a controller is only as useful as the commands a planner can realistically produce"。这一限制在概念上类似于早期计算机系统中,应用程序必须直接操作硬件寄存器——缺乏抽象层使得系统难以扩展和通用化。
策略蒸馏的理论为融合互补专家提供了数学工具。Hinton、Vinyals 和 Dean 在 2015 年提出的知识蒸馏框架通过最小化学生策略与教师策略之间的 KL 散度来传递知识:
在 HANDOFF 中,这一框架被扩展为多教师上下文条件蒸馏。学生策略
其中
这里的
混合专家模型为蒸馏提供了架构支撑。Shazeer 等人 2017 年提出的稀疏门控 MoE 层在语言模型中展示了专家路由的威力,但 HANDOFF 将其应用于控制策略中的跨教师路由。学生策略包含三个专家网络,共享一个 64 维的时序卷积编码器潜变量,但各自产生不同的动作均值。门控网络是一个小型 MLP(128→64),将共享潜变量映射到 3 路 softmax。关键的是,HANDOFF 使用软路由(soft routing)而非硬 top-k 路由:所有三个专家在每个时间步都被评估,其动作均值由门控权重混合。这保持了策略的完全可微性,并避免了硬路由在门控不确定时引入的双模态伪影。论文还引入了两个路由塑形损失:一个子集感知的负载均衡损失(确保 WBC 和 locomotion 专家在非恢复样本上均匀分担任务),以及一个恢复路由损失(在恢复激活样本上将门控质量推向恢复专家)。
从理论上看,HANDOFF 的上下文条件蒸馏可以被理解为一种多任务学习中的任务条件化(task conditioning)策略,但与传统多任务学习的不同之处在于,"任务"不是由数据集标签定义的,而是由运行时命令信号的物理语义动态决定的。WBC 教师提供的是姿态和协调的先验(prior),locomotion 教师提供的是速度跟踪的可靠性,AMP 教师提供的是扰动恢复的鲁棒性。学生策略通过 KL 散度将这些互补的"知识源"融合,而非通过数据混合或参数共享。这种视角将 HANDOFF 与近期的专家到通才蒸馏工作(如 From Experts to a Generalist, NeurIPS 2026)联系起来,但 HANDOFF 的独特之处在于其接口驱动的异质性:蒸馏不是为了覆盖更多动作模式,而是为了在紧凑接口下协调不同物理机制(运动跟踪 vs. 速度跟踪 vs. 跌倒恢复)之间的冲突。
技术架构
HANDOFF 的技术架构是一个精心设计的四层系统:教师层、蒸馏层、学生策略层和 agentic 规划层。每一层都在解决特定的工程问题,且层与层之间通过明确的接口解耦。
教师层的核心设计哲学是"独立训练、互补覆盖"。三个教师各自在自己的领域独立训练,使用 PPO 算法和不对称 actor-critic 架构,但它们的观察空间、奖励结构和训练数据截然不同。全身运动跟踪教师(WBC teacher)是一个 29-DoF 策略,在重定向的人体动作片段(BONES-SEED 数据集)上训练,接收 11 帧本体感知历史加上当前片段帧的 29-D 参考关节角度。其奖励栈核心是跟踪精度——关节角度、关节速度、根位置、根旋转、根线速度、根角速度、关键身体点(手腕、膝盖、脚踝、肘部、躯干)的跟踪——通过指数核函数施加。然而,原始动作数据包含动态不可行的下蹲帧(质心投影超出支撑多边形),因此论文引入了一个闭合形式 CBF(Control Barrier Function)投影在静态压力中心(CoP)裕度上进行修正。这一过滤器的数学表达是一个 7 维关节修正子空间(双侧髋俯仰、踝俯仰、踝横滚和腰俯仰)上的半空间投影,通过最小努力修正将不安全帧投影到安全集:
其中
Locomotion 教师是一个 15-DoF 身体切片(腿+腰)策略,在平地环境中训练,手臂由课程混合的动作数据驱动以应对下游蒸馏中的手臂引起的 CoM 偏移。其奖励栈围绕速度跟踪和步态/姿态塑造构建,包含线速度跟踪、角速度跟踪、足部间隙、足部摆动高度、站立姿态、平足惩罚、步态相位接触匹配等项。跌倒恢复教师则基于 AMP(Adversarial Motion Prior)框架,在 locomotion 和配对的跌倒-恢复序列的混合数据上训练,通过判别器奖励和小的躯干锚定任务奖励的组合来塑造恢复行为。值得注意的是,高达 40% 的环境在重置时以延迟跌倒状态生成,以确保恢复分布得到充分代表。
蒸馏层是 HANDOFF 最核心的技术创新点。学生策略接收 planner 发出的 10-D 命令
蒸馏的上下文条件机制在工程上极为精巧。身体切片的 KL 监督是一个连续上下文凸组合:当命令速度低于 0.1 m/s 时,WBC 教师主导(保留姿态和协调);当速度升高时,locomotion 教师接管(确保速度跟踪精度)。手臂切片始终由 WBC 教师锚定,因为在恢复情况下 AMP 教师接管时,手臂仍需要保持操作能力。跌倒恢复教师的 KL 通过离散掩码仅作用于恢复激活样本:
KL 系数采用余弦退火调度:在最初的 60,000 更新步中,
Agentic 规划层展示了 10-D 接口的实际应用价值。规划器栈(图 4)从自然语言指令开始,由高层推理器分解为原子任务(正则解析 + LLM 回退);然后 VLM 将预测的 2D 点和边界框投影到 RGB-D 点云上,发出骨盆坐标系路标点;路标点跟踪器从中推导出
硬件部署的细节同样值得关注。真实平台是配备 Dex1-1 拟人夹持器的 Unitree G1(29 DoF),头部安装 ZED-M 立体 RGB-D 相机,背部安装 Nvidia Jetson Thor 运行完整的 onboard 栈——50 Hz RL 控制器、agentic 规划器和本地 VLM 推理(可选 ChatGPT API 回退通过 Wi-Fi)。Jetson + 电源 + 夹持器负载在模拟器中被建模为刚性质量并纳入领域随机化,确保部署策略在其训练质量分布内。整个系统由单个 140W USB-PD 移动电源供电,实现了完全无束缚运行。
实验评估
HANDOFF 的实验设计围绕两个核心问题展开:其一,10-D 紧凑接口是否能在不牺牲控制性能的前提下实现?其二,这个接口能否被真实的 agentic 规划器驱动以完成多样化的 loco-manipulation 任务?实验从消融研究、SOTA 对比和端到端部署三个维度给出了肯定的答案。
消融研究展示了每个技术组件的增量贡献。实验从"Direct"基线开始(仅运动跟踪教师),然后逐步添加 locomotion 教师(+ Dual teacher)、随机命令训练(+ RandCmd)、上下文分割 KL + MoE(Ours)、AMP 恢复教师(Ours+Rec.)、稳定性奖励栈(Ours+Stab.),以及两者的组合(Ours+Stab.+Rec.)。表 2a 的定量结果清晰地揭示了这一递进关系:
| 配置 |
|---|---|---|---|---|
| Direct | 0.29 | 0.43 | 0.08 | 0.20 |
| + Dual teacher | 0.14 | 0.25 | 0.09 | 0.31 |
| + RandCmd | 0.14 | 0.13 | 0.05 | 0.29 |
| + Split KL + MoE (Ours) | 0.07 | 0.14 | 0.04 | 0.27 |
| + AMP recovery (Ours+Rec.) | 0.07 | 0.15 | 0.05 | 0.26 |
| + Stability (Ours+Stab.) | 0.07 | 0.18 | 0.04 | 0.31 |
| + Stab. + Rec. (Ours+Stab.+Rec.) | 0.06 | 0.18 | 0.06 | 0.31 |
从 Direct 到 + Dual teacher 的跨越最为显著:locomotion 教师的加入使
与 SOTA 的对比实验证明了 HANDOFF 在紧凑接口下的竞争力。由于现有控制器不原生暴露骨盆坐标系腕部目标,论文为每个基线配备了基于 mink 的差分 IK 头作为适配器。这种适配器对基线是有利的——它在瞬时笛卡尔目标存在时精确求解——但仍增加了外部参考生成层,且不保证动态全身可行性。即便如此,HANDOFF 的 velocity tracking 在所有轴上均处于 SOTA 集群内,同时提供了最大的稳健工作空间(0.31 m³):
| 方法 |
|---|---|---|---|---|---|
| FALCON | 0.07 | 0.10 | 0.07 | 35.5 | 0.06 |
| OpenHomie | 0.06 | 0.12 | 0.10 | 62.9 | 0.15 |
| AMO | 0.06 | 0.19 | 0.01 | 80.9 | 0.22 |
| SONIC | 0.03 | 0.15 | 0.02 | 89.8 | 0.26 |
| Ours | 0.07 | 0.14 | 0.04 | 87.1 | 0.27 |
| Ours + Rec. | 0.07 | 0.15 | 0.05 | 92.0 | 0.26 |
| Ours + Stab. | 0.07 | 0.18 | 0.04 | 97.7 | 0.31 |
| Ours + Stab. + Rec. | 0.06 | 0.18 | 0.06 | 90.8 | 0.31 |
SONIC 在
端到端 agentic 部署实验验证了 10-D 接口的实际可用性。在模拟中,论文展示了跌倒后的任务延续:同一 10-D 命令流,无需控制器端修改,即可在跌倒后自动恢复并继续任务——这只有在恢复专家被蒸馏进统一策略时才可能。在真实硬件上,Unitree G1 完成了多个任务:pick-and-place、pick-transport-place、squat-pick、bimanual-pick-and-hand-off 和 bilateral pick-and-place。这些任务由同一个控制器驱动,仅通过 planner 发出不同的 10-D 命令序列来实现。论文强调了一个重要的方法论立场:定量声明仅针对控制器及其接口,而 agentic 规划器是该接口的一个代表性实现。硬件展开表明,这种接口可以在无束缚的真实机器人栈中实例化,而无需任务特定的控制器重训练。
评估协议本身也值得分析。Velocity tracking 通过在
案例研究
论文中最具启发性的案例是 VLM 驱动的"取物-传递"(bimanual-pick-and-hand-off)任务。在这一任务中,机器人需要双手分别抓取两个物体,然后将其中一个传递给另一只手或放置到指定位置。这一任务的复杂性在于它要求:非对称的双手协调(一只手在较高位置抓取,另一只手在较低位置准备接收)、可能的基座移动(如果物体不在伸手范围内),以及全身姿态调整(下蹲或倾斜以扩展可达范围)。
在 HANDOFF 的框架下,这一任务被分解为一系列 10-D 命令序列。VLM 首先检测物体的 2D 位置和边界框,然后将这些投影到 RGB-D 点云上获得骨盆坐标系路标点。规划器生成如下命令流:
另一个值得深入分析的案例是跌倒后的任务延续。在传统人形机器人系统中,跌倒通常意味着任务终止或人工干预。HANDOFF 的 Ours+Rec. 配置通过将 AMP 恢复教师蒸馏到统一策略中,使得机器人能够在跌倒后自动恢复并继续执行剩余的 10-D 命令流。这一能力在模拟中得到了展示:机器人被故意推倒,触发恢复标志;恢复专家接管,通过滚动或爬行动作重新站立;恢复标志关闭,策略无缝切换回正常的 loco-manipulation 模式,继续跟随 planner 的命令。这种从扰动中恢复的韧性(resilience)对于真实世界部署至关重要,因为在非结构化的家庭或工业环境中,跌倒是不可避免的。
从论文的实验细节中还可以发现一个有趣的模式:稳定性奖励栈的引入显著提高了 feasibility(从 87.1% 到 97.7%),但对速度跟踪精度有轻微负面影响(
综合价值与局限
HANDOFF 的理论价值在于它为 embodied AI 的 planner-controller 接口问题提供了一个原则性的解决方案。现有文献要么将 planner 绑死在密集运动学参考上(丧失通用性),要么通过分裂架构实现紧凑 locomotion 命令但牺牲全身协调性(如 HOMIE/FALCON 仍需要上臂关节参考),要么放弃显式接口而采用潜在动作空间(如 LeVERB 的"动词"词汇,但丧失了 planner 的模块化)。HANDOFF 通过蒸馏互补专家到统一策略中,首次实现了紧凑、显式、全身表达的接口四者的统一。这一思路超越了人形机器人领域,对任何需要高层规划与低层控制衔接的 agentic 系统都有启发意义——无论是机械臂、无人机还是自动驾驶车辆。
从实践角度看,HANDOFF 的模块化可扩展性是其最大优势。上下文条件蒸馏机制具有"即插即用"特性:一个新的专家(如地形适应专家、重载专家、接触感知专家)只需作为新的教师头和新的上下文通道接入,无需修改现有教师或命令接口。这种设计哲学类似于操作系统中的驱动程序模型——新硬件只需实现标准接口即可被系统识别和使用。对于 rapidly evolving 的人形机器人领域,这种可扩展性至关重要,因为新的 embodiment、新的传感器和新的任务需求不断涌现。
然而,HANDOFF 也存在明显的局限性。首先,腕部目标仅为 3-D 位置而非完整的 6-D 姿态(位置 + 方向),这意味着规划器无法直接控制抓取器的方向。论文通过运行时运动学校正来处理工具坐标系残差,但这增加了规划器的复杂性。完整的 6-D 跟踪是作者明确指出的未来工作方向。其次,感知系统的限制:硬件实验仅使用单个固定姿态的头部安装 RGB-D 相机,限制了感知范围到前方视野。云台头部和腕部相机将显著扩展机器人的感知能力,但这超出了当前工作的范围。第三,专家覆盖的局限性:当前的三位教师集虽然广泛,但并非穷尽。地形适应、接触力控制、重载操作等场景尚未覆盖,需要未来的专家来扩展。第四,模拟到真实的差距:虽然论文通过领域随机化和质量分布建模来缩小 sim-to-real 差距,但真实世界的摩擦、接触动力学和未建模的扰动仍然可能挑战策略的鲁棒性。硬件演示中的任务范围( pick-and-place、传递等)虽然多样,但仍属于相对结构化的场景,在真正非结构化的家庭环境中的表现尚待验证。
从更批判性的视角看,HANDOFF 的评估主要基于物理指标(velocity tracking error、workspace volume、feasibility),而非任务完成率或用户满意度。虽然这些指标为控制器性能提供了客观基准,但它们无法完全捕捉真实世界部署中的实际效用。例如,一个 feasibility 为 97.7% 的控制器在 100 次试验中仍有约 2-3 次失败,对于安全关键应用(如辅助老年人或工业协作)而言,这一失败率可能过高。此外,VLM 规划器的可靠性并未被定量评估——虽然视频展示了成功的展开,但失败率、重试次数和平均任务完成时间等关键指标未在论文中报告。
延伸阅读与思考
HANDOFF 的理论脉络与多篇近期重要工作紧密相连。在运动跟踪 WBC 方向上,TWIST2(Ze et al., 2025)和 SONIC(Luo et al., 2025)代表了当前数据驱动全身控制的最高水平,它们通过大规模数据收集和残差学习不断提升跟踪精度,但均未解决 planner 接口问题。BeyondMimic(Liao et al., 2025)通过引导扩散模型从运动跟踪扩展到多样化控制,但仍需要密集参考。HOVER(He et al., 2025)提出了多模式运动跟踪,但其接口仍是 ~80 维的运动学掩码。在分裂架构方向上,HOMIE(Ben et al., 2025)和 FALCON(Zhang et al., 2025)通过 cockpit 或力自适应机制实现了上下半身分离,但上臂仍需要密集关节参考。AMO(Li et al., 2025)通过动态优化的运动参考混合了 RL 和优化,但同样面临参考生成问题。在专家蒸馏方向上,GMT(Chen et al., 2025)通过门控运动 MoE 改进了运动跟踪,但门控基于单一运动流形的聚类而非跨教师机制。最接近 HANDOFF 的近期工作可能是 From Experts to a Generalist(Wang et al., NeurIPS 2026)和 Embodiment-Aware Generalist Specialist Distillation(Peng et al., 2026),但 HANDOFF 的独特贡献在于其接口驱动的蒸馏动机:蒸馏不是为了覆盖更多动作模式,而是为了协调不同物理机制(运动跟踪 vs. 速度跟踪 vs. 恢复)在紧凑接口下的冲突。
在VLM/VLA 驱动的机器人控制方向上,RT-2(Zitkovich et al., 2023)和 OpenVLA(Kim et al., 2025)训练单一 Transformer 直接输出低级动作,但它们的动作空间通常固定且缺乏全身协调性。WholeBodyVLA(Jiang et al., 2025)和 Being-0(Yuan et al., 2025)尝试将 VLM 与模块化技能库结合,但技能库的扩展仍需每个技能的数据收集。HANDOFF 的 10-D 接口可以被这些 VLA 直接输出,而无需任何 per-method 重定向或控制器微调,这使得它成为 VLA 到真实机器人硬件的潜在"翻译层"。
未来研究方向上,HANDOFF 打开了多个令人兴奋的可能性。第一,6-D 腕部目标扩展:将当前的位置目标扩展到包含方向的完整 6-D 姿态,将显著增强操作能力,特别是在需要精确工具对准或插入任务的场景。第二,多专家扩展:地形适应专家(斜坡、楼梯、不平地面)、接触力感知专家(精密装配、柔顺应操作)、重载专家(搬运重物时的平衡调整)等都可以通过相同的上下文条件蒸馏机制接入。第三,VLM 规划器的端到端优化:当前规划器是一个模块化栈(高层推理 + VLM 检测 + 路点跟踪 + 技能选择),未来可以探索端到端训练 planner 以直接输出最优 10-D 命令序列。第四,多机器人协调:10-D 接口的标准化使得多个 HANDOFF 控制器可以在协作任务中通过相同的命令语言相互通信。第五,sim-to-real 的进一步提升:系统性地识别和建模真实世界中的未建模扰动(如地面滑动、外力碰撞、电机过热)仍是 open problem。
从更抽象的视角反思,HANDOFF 让我思考一个更深层的问题:在 embodied AI 中,什么是"好的接口"? 论文给出的答案是:好的接口应该同时满足四个属性——直观、通用、模块化和全身表达。这与计算机科学中抽象层设计的经典原则(如操作系统中的系统调用、网络中的协议栈)高度一致。然而,在物理机器人领域,这种抽象远比数字系统困难,因为物理世界的约束(动力学、摩擦、重力)无法被完全抽象掉。HANDOFF 的贡献在于证明了通过蒸馏互补专家到统一策略,可以在保持物理可行性的同时实现有效的抽象。这一思路可能不仅适用于人形机器人,也可能为其他具身智能体(如四足机器人、机械臂、自动驾驶车辆)的 planner-controller 接口设计提供方法论指导。
最后,HANDOFF 也让我反思 agent architecture 中的一个核心 tension:模块化 vs. 端到端优化。模块化设计(如 HANDOFF 的分离 planner、接口和控制器)提供了可解释性、可替换性和可扩展性,但可能牺牲端到端最优性;端到端训练(如 VLA 直接输出关节角度)可能在特定任务上表现更好,但丧失了跨任务泛化和故障诊断能力。HANDOFF 的蒸馏框架在某种程度上融合了二者:学生策略是端到端训练的(从 10-D 命令到 29-D 动作),但其教师是模块化的专家,且接口本身是一个精心设计的模块化抽象。这种"模块化教师、端到端学生"的混合架构可能是未来 agentic 系统设计的一个重要范式。
笔记创建时间: 2026-06-08
阅读方式: L2 深度阅读
Topics:
- "embodied_ai"
- "robotics"
- "agent_architecture"
- "multimodal"
- "sim_to_real"
References: - "caltech"
- "ihmc"
- "unitree"
- "mixture_of_experts"
- "kl_distillation"