FurnitureVLA：机器人开始装真家具

机器人装家具，难点不只是“手要稳”。一只机械臂要固定部件，另一只要对齐、连接，两边还得在时序和力学上配合。任务一长，前面一点偏差就会一路传下去。FurnitureVLA 关注的正是这类真实尺度、双臂、长时程装配，并尝试让 Vision-Language-Action model（VLA——根据视觉和语言指令直接预测机器人动作的模型）从短小演示走向更完整的操作流程。

论文作者将它定位为首个系统研究此问题的工作。不过，现有信息全部来自论文摘要，首创性、实验效果与实机表现尚无独立信源交叉验证。

难的不只是动作，而是别走丢

FurnitureVLA 面对的最长任务包含最多 7 个子任务、1550 个控制步骤。长时程任务由相互依赖的步骤组成：早期抓取或对齐出错，后续动作即使单独正确，也可能无法继续。

作者提出 progress-enhanced VLA，让模型联合预测动作和一个连续进度信号。这个信号相当于模型对“当前做到哪了”的估计，用来自动切换子任务。模型还会在带有语义的子任务上微调。按作者的说法，这套设计意在减少推理过程中不断累积的误差。

数据从哪里来？

系统包含一条可扩展的仿真管线，用于生成专家数据和评估策略。仿真可以扩大数据规模，但最终要面对 Sim-to-Real：先在仿真中训练或生成数据，再迁移到真实机器人。这里的核心障碍，是仿真与现实在视觉和物理上的差距。

为补充真实数据，团队还搭建了 VR 遥操作示教系统。遥操作让人远程控制机器人并记录观测与动作；VR 则把操作者的手部或控制器运动映射成双臂动作。该系统支持一名操作者同时控制两臂，用于采集真实环境中的演示。

结果为什么值得看？

在三种家具的仿真实验中，作者报告 FurnitureVLA 将平均成功率从基线的 48% 提高到 80%。这至少说明，在作者设定的评估中，显式追踪进度、按子任务组织训练，以及感知和控制设计，可能比单纯延长动作序列更有效。

论文还报告，设计因素研究带来额外 21% 提升。但摘要没有说明这是 21 个百分点还是相对提升，也没有交代它与 48% 到 80% 的关系，因此不能直接叠加解读。

作者在真实 Kinova Gen3 平台上进行了验证，并称最难任务相较仿真“仅下降 16%”。这项结果指向了实机迁移的可能性，但摘要未给出原始成功率，也未说明 16% 是百分点还是相对降幅。

局限与未知

摘要没有披露三种家具的具体类型、部件规模、实验次数和成功判据；“真实尺度”也不等于完整商品家具从零自主装到成品。
是否需要人工复位、失败后如何恢复，以及 1550 步任务能否稳定重复完成，现有材料都没有说明。
关键效果均来自作者单篇论文。尤其是“首个系统研究”、额外 21% 提升和实机下降 16%，目前应视为作者报告，而非独立确认的结论。