機器人的技術(shù)創(chuàng )新任務(wù)主要在于人形機器人關(guān)鍵技術(shù)的突破,其中在人形機機器人本體上的重要技術(shù)任務(wù)在于開(kāi)發(fā)基于人工智能大模型的人形機器人“大腦”與
開(kāi)發(fā)控制人形機器人運動(dòng)的“小腦”。大模型作為最爆火的人工智能概念,推動(dòng)了人形機器人大腦的形成,助力人形機器人具有人的感知、交互與決策能力;對
于控制系統仍在切入中。
感知、交互與決策
多模態(tài)大模型增強人機交互,實(shí)現
對人類(lèi)意圖的理解,對復雜外部環(huán)
境的理解與認知,助力形成決策:
大模型可直接用于對環(huán)境的理解, 并通過(guò)提示詞使之輸出結構化內
容如控制代碼、任務(wù)分解等指令
利用多模態(tài)大模型對環(huán)境進(jìn)行建
模, 實(shí)現具身智能對空間信息的
多模態(tài)理解
機器人能夠從數據中學(xué)習決策與
規劃策略,基礎模型為機器人決
策與規劃引入了豐富的先驗知識。
控制
大模型在控制上的助力主要集中于大模型處理環(huán)境觀(guān)察與提示,輸出動(dòng)作序
列,動(dòng)作序列可以是一系列關(guān)節角度或末端執行器的位姿與夾爪開(kāi)合數據,
這些序列將直接用于控制機器人的運動(dòng)。
原生機器人大模型ERA-42, 展示了與自研五指靈巧手星動(dòng)X(jué)HAND1 結合后的靈巧操作能力,能夠完成超過(guò)100種復雜靈巧的 操作任務(wù),是真正的具身大模型
普渡機器人提出了 Robot-to-Everything 架構,實(shí)現萬(wàn)物互聯(lián),全場(chǎng)景的智能生態(tài);率先完成了專(zhuān)用、類(lèi)人形、人形三類(lèi)機 器人的完整產(chǎn)品布局
機器人像人一樣使用工具的靈巧手,是提升機器人柔性操作能力的關(guān)鍵部件,是柔性制造避不開(kāi)的一環(huán);靈巧手工程量占據Optimus工程量的50%,靈巧手是機器人走向“好用”的關(guān)鍵
欠驅動(dòng)手硬件集成度高,整體系統簡(jiǎn)潔高效、體積小、質(zhì)量輕,便于進(jìn)行動(dòng)力學(xué)分析;存在功能性不足,對于精度要求比較高的手指精巧控制無(wú)法勝任
具有完全可重復的運動(dòng)軌跡,適合某些功能性和精細操作較高的場(chǎng)合,在工業(yè)場(chǎng)合, 例如組裝、測量等情況下有更好的表現,沒(méi)有合理的運動(dòng)學(xué)分析控制時(shí),整體的靈活性差
機器人的觸感靈巧手Linker Hand具備20個(gè)主動(dòng)自由度,包括柔性電子皮膚,實(shí)現精細觸覺(jué)感知,構建最大的靈巧操作數據集,包含了大量的人手操作數據,覆蓋了各 種復雜的抓取和操作任務(wù)
當人們認為機器人是有意圖的代理時(shí),他們的大腦以類(lèi)似的方式處理自己和機器人的行動(dòng)結果,意圖歸因在人機交互中起著(zhù)至關(guān)重要的作用,可能包括通過(guò)言語(yǔ)指令等非交互性手段來(lái)調整人們對機器人意圖的感知
移動(dòng)機器人系統用于解決探索性化學(xué)中的三個(gè)主要問(wèn)題以及根據數據決定下一步做什么,移動(dòng)機器人做出與人類(lèi)研究人員相同或相似的決定比人類(lèi)快得多
大模型可加快人形機器人復雜任務(wù)訓練速度,提升任務(wù)生成速度及縮短理解周期;1 提升人形機器人語(yǔ)言處理能力 2 提升人形機器人場(chǎng)景理解能力 3 提升人形機器人運動(dòng)控制能力 4 提升人形機器人數據訓練能力
NLP 大模型在語(yǔ)言的歧義、文化差異及多樣化、情感分析困難;CV 大模型算法處理復雜;多模態(tài)大模型融合不同模態(tài)的信息并提高模型的標識能力
NLP 大模型是人工智能L域的重要研究方向,CV大模型是指基于深度學(xué)習的計算機視覺(jué)模型,多模態(tài)大模型是指將文本、圖像、視頻、音頻等多模態(tài)信息聯(lián)合起來(lái)進(jìn)行訓練的模型
機器人大腦提高人形機器人的人-機-環(huán)境共融交互能力,支撐全場(chǎng)景落地應用;機器人小腦提升人形機器人非 結構化環(huán)境下全身協(xié)調魯棒移動(dòng)、靈巧操作及人機交互能力