1月29日,宇樹(shù)科技開(kāi)源其面向通用人形機(jī)器人操作的VLA大模型UnifoLM-VLA-0。
據(jù)介紹,針對(duì)操作類(lèi)任務(wù)中對(duì)指令理解與空間感知的高要求,模型通過(guò)繼續(xù)預(yù)訓(xùn)練深度融合了文本指令與2D/3D空間細(xì)節(jié),增強(qiáng)了模型的空間感知能力。同時(shí),模型構(gòu)建了全鏈路動(dòng)力學(xué)預(yù)測(cè)數(shù)據(jù),模型具備更好的任務(wù)泛化性。
基于Qwen2.5-VL-7B開(kāi)源模型,宇樹(shù)構(gòu)建了覆蓋機(jī)器人與通用場(chǎng)景的多任務(wù)數(shù)據(jù)集,并開(kāi)展持續(xù)預(yù)訓(xùn)練。針對(duì)操作類(lèi)任務(wù),團(tuán)隊(duì)還對(duì)開(kāi)源數(shù)據(jù)集進(jìn)行了系統(tǒng)化清洗,最終僅用約340小時(shí)的真機(jī)數(shù)據(jù),進(jìn)行離散動(dòng)作的預(yù)測(cè)訓(xùn)練。
宇樹(shù)表示,經(jīng)由仿真環(huán)境與真機(jī)實(shí)驗(yàn)的多任務(wù)訓(xùn)練驗(yàn)證,結(jié)果顯示該模型具備單模型處理多任務(wù)的通用能力,在LIBERO仿真基準(zhǔn)測(cè)試中,多任務(wù)模型取得了接近最優(yōu)的性能。在真機(jī)驗(yàn)證中,僅需單一策略即可高質(zhì)量完成12類(lèi)復(fù)雜的操作任務(wù)。(澎湃新聞?dòng)浾?秦盛)