🎉 攢成長值,抽華爲Mate三折疊!廣場第 1️⃣ 2️⃣ 期夏季成長值抽獎大狂歡開啓!
總獎池超 $10,000+,華爲Mate三折疊手機、F1紅牛賽車模型、Gate限量週邊、熱門代幣等你來抽!
立即抽獎 👉 https://www.gate.com/activities/pointprize?now_period=12
如何快速賺成長值?
1️⃣ 進入【廣場】,點擊頭像旁標識進入【社區中心】
2️⃣ 完成發帖、評論、點讚、發言等日常任務,成長值拿不停
100%有獎,抽到賺到,大獎等你抱走,趕緊試試手氣!
截止於 8月9日 24:00 (UTC+8)
詳情: https://www.gate.com/announcements/article/46384
#成长值抽奖12期开启#
李飛飛「具身智能」新成果!機器人接入大模型直接聽懂人話,0預訓練就能完成複雜指令
來源:量子位
李飛飛團隊具身智能最新成果來了:
大模型接入機器人,把複雜指令轉化成具體行動規劃,無需額外數據和訓練。
可操作的物體也是開放的,不用事先劃定範圍,開瓶子、按開關、拔充電線都能完成。
**機器人如何直接聽懂人話? **
李飛飛團隊將該系統命名為VoxPoser,如下圖所示,它的原理非常簡單。
接著,LLM(大語言模型)根據這些內容編寫代碼,所生成代碼與VLM(視覺語言模型)進行交互,指導系統生成相應的操作指示地圖,即3D Value Map。
而從這個過程我們可以看到,相比傳統方法需要進行額外的預訓練,這個方法用大模型指導機器人如何與環境進行交互,所以直接解決了機器人訓練數據稀缺的問題。
更進一步,正是由於這個特點,它也實現了零樣本能力,只要掌握了以上基本流程,就能hold任何給定任務。
在具體實現中,作者將VoxPoser的思路轉化為一個優化問題,即下面這樣一個複雜的公式:
VoxPoser要實現的就是優化每一個子任務,獲得一系列機器人軌跡,最終最小化總的工作量和工作時間。
而在用LLM和VLM將語言指令映射為3D地圖的過程中,系統考慮到語言可以傳達丰富的語義空間,便利用“感興趣的實體(entity of interest)”來引導機器人進行操作,也就是通過3DValue Map中標記的值來反應哪個物體是對它具有“吸引力”的,那些物體是具有“排斥性”。
當然,這些值如何生成,就靠大語言模型的理解能力了。
而在最後的軌跡合成過程中,由於語言模型的輸出在整個任務中保持不變,所以我們可以通過緩存其輸出,並使用閉環視覺反饋重新評估生成的代碼,從而在遇到干擾時快速進行重新規劃。
因此,VoxPoser有著很強的抗干擾能力。
以下分別是VoxPoser在真實和模擬環境中的表現(衡量指標為平均成功率):
最後,作者還驚喜地發現,VoxPoser產生了4個“湧現能力”:
(1)評估物理特性,比如給定兩個質量未知的方塊,讓機器人使用工具進行物理實驗,確定哪個塊更重;
(2)行為常識推理,比如在擺餐具的任務中,告訴機器人“我是左撇子”,它就能通過上下文理解其含義;
(3)細粒度校正,比如執行“給茶壺蓋上蓋子”這種精度要求較高的任務時,我們可以向機器人發出“你偏離了1厘米”等精確指令來校正它的操作;
(4)基於視覺的多步操作,比如叫機器人將抽屜精準地打開成一半,由於沒有對像模型導致的信息不足可能讓機器人無法執行這樣的任務,但VoxPoser可以根據視覺反饋提出多步操作策略,即首先完全打開抽屜同時記錄手柄位移,然後將其推回至中點就可以滿足要求了。
李飛飛:計算機視覺的3顆北極星
大約一年前,李飛飛在美國文理學會會刊上撰文,指出計算機視覺發展的三個方向:
正如ImageNet旨在表示廣泛且多樣化的現實世界圖像一樣,具身智能研究也需要解決複雜多樣的人類任務,從疊衣服到探索新城市。
遵循指令執行這些任務需要視覺,但需要的不僅僅是視覺,也需要視覺推理理解場景中的三維關係。
最後機器還要做到理解場景中的人,包括人類意圖和社會關係。比如看到一個人打開冰箱能判斷出他餓了,或者看到一個小孩坐在大人腿上能判斷出他們是親子關係。
機器人結合大模型可能正是解決這些問題的一個途徑。