科技公司 Google 宣布與 波士頓動態 該公司將 Gemini Robotics 的具身推理模型整合到四足機器人 Spot 中,這標誌著人工智慧在現實世界機器人領域的應用向前邁進了一步。此次合作使機器人能夠更好地理解周圍環境、識別物體,並根據自然語言指令執行任務,而不再僅依賴預先編程的程式。
此次整合基於2025年內部黑客馬拉松期間進行的實驗性工作,當時開發人員探索如何利用大型語言模型和視覺推理系統來增強Spot的自主性。透過利用Gemini Robotics的技術,該機器人可以處理來自攝影機的視覺輸入,並將諸如整理房間內物品之類的高級指令轉化為協調的物理動作。
與通常依賴僵化的、循序漸進邏輯的傳統機器人程式設計不同,該系統引入了一種基於對話提示的更靈活的介面。開發人員使用 Spot 的軟體開發工具包創建了一個中間軟體層,使 Gemini 模型能夠與機器人的應用程式介面 (API) 進行通訊。該框架使人工智慧能夠從…中進行選擇。 defi一系列動作,包括導航、物件偵測、影像擷取、抓取和放置。
在實際演示中,該系統展現了理解通用指令並適應動態環境的能力。例如,在執行整理物品的任務時,人工智慧模型會分析視覺數據,辨識相關物品,並引導機器人完成一系列動作。機器人的回饋資訊(例如任務完成情況或物理限制)會被即時整合,使系統能夠在無需人工幹預的情況下調整自身行為。
該方法透過將人工智慧限制在預定義範圍內來維護作業邊界。defi機器人API內建了多種功能,確保效能可預測且可控。這種設計兼顧了適應性和安全性,這對於在實體系統中部署人工智慧至關重要。
該合作關係也凸顯了開發人員潛在的效率提升。透過減少大量手動編碼的需求,自然語言介面使工程師能夠專注於… defi不再需要對每個動作序列進行編程,而是設定目標。這種轉變可望加速機器人技術在製造業、檢測業和物流業等各行業的應用發展。
儘管該技術仍處於實驗階段,但此次演示反映了物理人工智慧領域的更廣泛趨勢,即越來越多地利用基礎模型來增強機器的感知和決策能力。兩家公司都表示,他們正在進行進一步的研發工作,包括繼續將基於Gemini的系統整合到機器人平台中。
此次合作預示著人機互動將朝著更直觀的方向發展,複雜的機器人行為可以透過簡化的輸入進行引導。隨著人工智慧模型的不斷發展,此類整合有望拓展自主系統的功能範圍,同時降低其部署的技術門檻。
Source link


