

同期赈济双臂协同、双机灵手高解放度紧密操作
——端到端VLA模子
过往主流VLA系统,要么聚焦双臂低解放度夹爪死亡,要么专攻单臂高解放度机灵手操作,历久无法兼顾双臂协同与紧密手指动作的双重需求。
比如活塞插入需双臂精确合作,拧瓶盖、紧密取物则依赖多指天真调控,这类任务历久短少长入的VLA经管决策。
近日,首个原生面向双臂双高解放度(36解放度)机灵操作的开源VLA模子:Dexora,突破此前VLA的方法壁垒,为通用机灵机器东谈主的落地提供了全新范式。

硬件与遥操作:虚实协同的机灵数据底座
高解放度机灵操作的中枢前提,是精确、可限制化的数据网络。Dexora舍弃单一遥操作决策,打造“外骨骼+VR”搀杂遥操作系统,同期驱动物理机器东谈主与MuJoCo数字孪生,从根源经管数据网络的精度与限制艰难。

▲Dex硬件与搀杂遥操作系统流露图©[深蓝具身智能]编译
可罢了扭转、捏取等类东谈主紧密操作,整套系悉数计36解放度,为复杂双手协同任务提供硬件基础。
定制外骨骼背包捕捉机械臂合座清爽(无漂移、低蔓延),AppleVisionPro罢了无标志手指跟踪,兼顾手臂大范围移动的雄厚性与手指紧密动作的天真性。

▲仿真/信得过数据集物体与任务散布流露图©[深蓝具身智能]编译
更关键的是虚实同步野心:
遥操作请示同期下发物理机器东谈主与数字孪生,两者传感器数据(4路RGB、36解放度要害气象)20Hz同步记载。
既保险信得过场景数据的信得过性,又能在仿真中低资本膨胀任务场景,变成“信得过+仿真”互补的数据集。
最终构建的数据集包含10万条仿真轨迹(650万帧)、1万条信得过遥操作轨迹(292万帧),笼罩30类仿真物体、17类信得过物体,兼顾基础抓取与紧密机灵任务。

模子架构:扩散Transformer+质料判别器双中枢
Dexora基于数据质料感知的端到端VLA架构,通过扩散Transformer生成动作,搭配离线质料判别器过滤噪声数据,经管遥操作数据质料散乱不王人、高维动作考试不雄厚的行业痛点。

▲Dexora合座总览图(动机/数据/架构/性能/泛化)©[深蓝具身智能]编译
扩散Transformer政策网罗
弃取解码器-only扩散Transformer算作政策中枢,输入多视角RGB图像、谈话请示与面前要害气象,输出36解放度贯串动作序列。
模子弃取T5编码谈话请示、SigLip编码图像特征,轮流注入Transformer块,通往常噪揣度生成动作,兼顾多模态交融智力与高维动作建模精度。
数据质料判别器
遥操作数据常因操作罪戾、传感器噪声存在低质料轨迹,径直考试会拉低模子性能。
Dexora野心离线判别器,通过“清爽平滑度+任务顺利率”双重尺度筛选数据:
判别器以冻结的预考试政策为基准,揣度轨迹质料得分(0-1),考试时将得分鼎新为权重,高质料轨迹权重高、低质料轨迹权重低,公式简化为:
其中为质料权重,为揣度噪声,为信得过噪声。这种野心让模子聚焦灵验数据,大幅进步高维机灵动作的考试雄厚性。

考试历程:三阶段渐进式优化
Dexora弃取“仿真预考试+判别器考试+信得过微调”三阶段考试,均衡基础智力与机灵时间,罢了从仿真到信得过的平滑转移。

▲Dex数据过滤、判别器考试、质料感知考试框架图©[深蓝具身智能]编译
第一阶段,凤凰彩首页10万仿真轨迹预考试,让模子掌抓抓取、拼装等基础操作,变成驱动动作生成智力;
第二阶段,用筛选后的高质料信得过数据考试判别器,使其精确识别轨迹优劣;
第三阶段,用沿途信得过数据微调政策,通过质料权重率领,让模子从基础智力进阶到拧瓶盖、紧密取物等机灵时间。

性能与泛化
实验扫尾披露,Dexora在基础任务、机灵任务、跨方法泛化三大维度均罢了突破,考据了双臂双高解放度野心与质料感知考试的灵验性。

▲基础任务示例图©[深蓝具身智能]编译

▲基础任务顺利率对比表©[深蓝具身智能]编译
平均顺利率达89.6%,12项任务中7项顺利率超90%,双臂协同任务(如双手递物、嵌套碗差异)上风权贵,远超GR00TN1(82.1%)、π0(50.4%)等基线。

▲机灵任务示例图©[深蓝具身智能]编译

▲机灵任务顺利率对比表©[深蓝具身智能]编译
平均顺利率66.7%,较最优基线GR00TN1(51.7%)进步15个百分点,尤其在拧瓶盖、紧密面团操作等需要双手合作+多指调控的任务中,基线险些失效,Dexora仍能雄厚完成。

▲散布外泛化性能图©[深蓝具身智能]编译
一是散布外泛化,在未知配景、光照、物体、荫庇等场景下,顺利率仅小幅下落,鲁棒性强;
二是跨方法转移,36解放度模子可径直适配单臂夹爪、双臂夹爪、单臂低解放度手,无需从头考试,仅需适配动作维度,突破VLA的方法依赖。

▲基础任务顺利率对比表©[深蓝具身智能]编译
消融实考据,质料判别器可镌汰动作抖动,进步任务雄厚性,证实“信得过数据+质料感知”是机灵VLA的中枢身分。

▲质料判别器恶果对比轨迹图©[深蓝具身智能]编译

机灵VLA:价值与局限并存
Dexora是首个原生双臂双高解放度VLA,证实高解放度模子可向下兼容低解放度开采,为通用机器东谈主提供“高维考试、低维部署”新念念路。
虚实协同网络+质料感知考试,经管机灵数据稀缺、噪声大的艰难,为高维VLA数据开采提供参考。

▲Dexora与主流VLA的方法笼罩对比图©[深蓝具身智能]编译
同期,存在的局限在于:
硬件依赖:36解放度系统资本高,难以快速普及,且无触觉响应,拧瓶盖等斗争敏锐任务顺利率仍低。
任务局限:复杂永劫序任务(如多顺序安装)、动态环境稳健智力不及。
泛化范围:跨材质、极点场景的雄厚性有待进步。
过往VLA要么“能双手不紧密”,要么“能紧密不双手”。
Dexora初度将两者长入,用开源模式镌汰门槛,为工作机器东谈主、工业机灵操作等场景提供可行决策。
异日,若能交融触觉响应、强化永劫序推理,Dexora有望进一步松开与东谈主类操作的差距,鼓舞通用机灵机器东谈主从实验室走向实际讹诈。
Ref
论文标题:Dexora:Open-sourceVLAforHigh-DoFBimanualDexterity
论文作家:ZongzhengZhang,JingruiPang,ZhuoYang,KunLi,MinwenLiao,SainingZhang,GuoxuanChi,JinbangGuo,Huan-angGao凤凰彩首页,ModiShi,DongyunGe,YaoMu,JiayuanGu,RuiChen,HaoDong,HuazheXu,LiYi,YixinZhu,HangZhao,PengweiWang,ShanghangZhang,GuocaiYao,JianyuChen,HongyangLi,HaoZhao

备案号: