首页 > 科技 >

UC伯克利等团队革新具身智能,推出「FAST」动作Tokenizer,训练效率跃升5倍

发布时间:2025-01-23 12:25:20来源:

研究者提出了FAST,一种专为VLA模型设计的高效动作Tokenizer,通过结合离散余弦变换(DCT)和字节对编码(BPE),显著提升了训练速度,并成功应用于复杂机器人控制任务。FAST旨在解决传统动作Tokenization方法在精细任务中的不足,将FAST与π0 VLA结合,在1万小时的机器人数据上训练,效果与最先进的扩散VLA相当,但训练时间缩短5倍。

FAST通过将动作像语言一样用离散Token表示,显著提高了从大规模数据预训练的迁移能力,增强了机器人执行语言指令的能力。研究者还发布了通用机器人动作Tokenizer FAST+,能高效标记各种机器人动作序列。借助FAST,研究者首次在DROID数据集上训练出通用策略,能在新环境中对多种指令实现泛化执行。实验结果显示,FAST+在各种机器人数据集上展现出良好的压缩性能,且自回归π0-FAST模型的表现与扩散π0模型相当,但计算量显著减少。然而,当前模型的推理速度较慢,未来有望通过加速技术改进。

免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。