從斯坦福大學(xué)的 VIMA 機(jī)器人智能體,到谷歌 DeepMind 推出首個(gè)控制機(jī)器人的視覺(jué) - 語(yǔ)言 - 動(dòng)作(VLA)的模型 RT-2,大模型加持的機(jī)器人研究備受關(guān)注。
當(dāng)前,自監(jiān)督和語(yǔ)言監(jiān)督的圖像模型已經(jīng)包含豐富的世界知識(shí),這對(duì)于泛化來(lái)說(shuō)非常重要,但圖像特征是二維的。我們知道,機(jī)器人任務(wù)通常需要對(duì)現(xiàn)實(shí)世界中三維物體的幾何形狀有所了解。
基于此,來(lái)自 MIT CSAIL 和 IAIFI 的研究者利用蒸餾特征場(chǎng)(Distilled Feature Field,DFF),將準(zhǔn)確的 3D 幾何圖形與來(lái)自 2D 基礎(chǔ)模型的豐富語(yǔ)義結(jié)合起來(lái),讓機(jī)器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺(jué)和語(yǔ)言先驗(yàn),完成語(yǔ)言指導(dǎo)的操作。
論文地址:https://arxiv.org/abs/2308.07931
具體來(lái)說(shuō),該研究提出了一種用于 6-DOF 抓取和放置的小樣本學(xué)習(xí)方法,并利用強(qiáng)大的空間和語(yǔ)義先驗(yàn)泛化到未見(jiàn)過(guò)物體上。使用從視覺(jué) - 語(yǔ)言模型 CLIP 中提取的特征,該研究提出了一種通過(guò)開(kāi)放性的自然語(yǔ)言指令對(duì)新物體進(jìn)行操作,并展示了這種方法泛化到未見(jiàn)過(guò)的表達(dá)和新型物體的能力。
研究團(tuán)隊(duì)用一個(gè)講解視頻詳細(xì)介紹了 F3RM 方法的技術(shù)原理:
商用機(jī)器人 Disinfection Robot 展廳機(jī)器人 智能垃圾站 輪式機(jī)器人底盤(pán) 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤(pán) 講解機(jī)器人 紫外線消毒機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 服務(wù)機(jī)器人底盤(pán) 智能送餐機(jī)器人 霧化消毒機(jī) 機(jī)器人OEM代工廠 消毒機(jī)器人排名 智能配送機(jī)器人 圖書(shū)館機(jī)器人 導(dǎo)引機(jī)器人 移動(dòng)消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺(tái)機(jī)器人 導(dǎo)覽機(jī)器人 酒店送物機(jī)器人 云跡科技潤(rùn)機(jī)器人 云跡酒店機(jī)器人 智能導(dǎo)診機(jī)器人 |