什么是 Helix?
Helix 是 Figure 推出的通用視覺-語言-動作(VLA)模型,專為人形機器人的控制而設計。Helix 的推出標志著機器人控制技術的重大突破,它首次實現了對機器人整個上半身(包括手腕、軀干、頭部和手指)的高速率(200Hz)連續控制。這一創新使得機器人能夠更精準地執行復雜的動作,同時支持多機器人協作,多個機器人可以共享同一組神經網絡權重完成任務。Helix 的強大之處在于它能夠基于自然語言指令拿起從未見過的物品,展現出卓越的泛化能力。此外,Helix 的訓練完全采用端到端的方式,無需任務特定的微調,且能夠在低功耗 GPU 上運行,具備商業部署的巨大潛力。
Helix 的主要功能
1. 全上身控制
Helix 能夠對機器人整個上半身進行高速率(200Hz)的連續控制,實現高精度的動作協調。這意味著機器人可以更靈活地完成各種復雜的動作,如抓取、操作和移動物品。
2. 多機器人協作
Helix 支持多個機器人同時運行同一套神經網絡權重,實現協作完成任務。例如,多個機器人可以共同搬運或整理物品,大大提高了工作效率。
3. 自然語言理解與執行
基于自然語言指令,Helix 可以讓機器人完成各種任務。無論是拿起從未見過的物品,還是操作抽屜或冰箱,Helix 都能夠輕松應對。
4. 強大的泛化能力
Helix 能夠處理數千種形狀、大小和材質各異的物品,展現出強大的泛化能力。這意味著機器人可以在各種不同的環境中靈活應用。
5. 商業部署能力
Helix 完全在低功耗嵌入式 GPU 上運行,適合大規模商業化應用。這一特性使得 Helix 在實際應用中具有極高的潛力和可行性。
Helix 的技術原理
1. 系統2(S2)
系統2(S2)基于 7B 參數的開源視覺語言模型(VLM),負責場景理解和語言理解。S2 的處理頻率為 7-9Hz,用于“慢速思考”高級目標,將視覺和語言信息轉化為語義表征。S2 將語義信息編碼為連續的潛在向量,并傳遞給系統1。
2. 系統1(S1)
系統1(S1)基于 80M 參數的 Transformer 編碼器-解碼器架構,用于底層控制。S1 的處理頻率為 200Hz,能夠快速執行和調整動作。S1 將 S2 傳遞的潛在向量與視覺特征結合,轉化為精確的機器人動作(如手腕姿態、手指控制、頭部和軀干方向)。
3. 端到端訓練
Helix 采用端到端訓練方式,從原始像素和自然語言指令直接映射到連續動作輸出。訓練過程中引入時間偏移,模擬 S1 和 S2 的推理延遲,確保訓練與部署的一致性。
4. 解耦架構
S1 和 S2 分別運行在不同的時間尺度上,S2 負責高級語義規劃,S1 負責實時動作執行。這種解耦架構既保證了系統的泛化能力,又實現了快速響應。
5. 優化推理部署
在機器人上,S1 和 S2 分別運行在獨立的 GPU 上,S2 異步更新潛在向量,S1 實時執行動作控制。這種優化推理部署方式進一步提升了系統的效率和性能。
Helix 的應用場景
1. 家庭服務
Helix 可以應用于家庭服務領域,如整理物品、收納、操作家電等日常家務。機器人可以輕松完成這些任務,為家庭提供便利。
2. 多機器人協作
多個機器人可以共享同一套神經網絡權重,共同完成搬運或組裝任務。這種協作能力在工業和物流領域具有廣泛的應用前景。
3. 物品抓取
基于自然語言指令,Helix 可以抓取從未見過的物品,適用于物流和倉儲領域。這種泛化能力使得機器人在復雜環境中也能高效工作。
4. 工業自動化
Helix 可以用在復雜的人機協作任務中,如零部件裝配和質量檢測。這種高精度的控制能力使得機器人在工業自動化中發揮重要作用。
5. 服務行業
在酒店、餐廳等場所,Helix 可以提供引導、遞送和清潔服務。這種多功能性使得機器人在服務行業中具有廣泛的應用。