繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

蘋果機器人新突破:賦予機器人「靈動」手勢,和人類一樣有魅力

2025-02-10 10:29

來源:騰訊科技

人與人之間的交流,除了語言,還可以通過手勢、面部表情和身體語言傳遞更多的信息。同樣,機器人在與人類互動時,如果能夠通過合適的手勢和動作來表達情感,互動就會變得更加流暢和自然。

在現階段,機器人雖然能夠執行一些簡單的手勢動作,但這些動作通常是預設的,缺乏靈活性,無法根據不同的社交情境做出合適的反應。

爲了讓人形機器人能夠「讀懂」動作,並且做動作時更自然,Apple AIML研究人員Peide Huang在2024年10月的論文中提出了EMOTION框架。近期,該論文獲得了業界的廣泛關注。EMOTION框架通過大型語言模型(LLM)和視覺語言模型(VLM),幫助機器人生成自然且符合情境的手勢動作。

這樣,機器人不僅能夠做出「豎大拇指」或「揮手」等簡單手勢,還能根據不同的交流環境做出動態、富有表現力的手勢,提升與人類的互動體驗。

EMOTION框架,讓機器人也能為你豎起「大拇指」點贊

EMOTION利用大型語言模型(LLM)和視覺語言模型(VLM),讓機器人能夠理解並生成符合社交情境的手勢。

根據 $蘋果 (AAPL.US)$ 發表的論文顯示,EMOTION框架大語言模型主要用於動作生成序列,通過調用OpenAI GPT-4的API進行文本補全來實現;VLM 主要使用的是Vision Transformers技術,幫助機器人從圖像中提取重要信息,比如 3D 關鍵點,如同人眼憑藉識別物體形狀來理解其信息,機器人也能借助這種技術解讀圖片中的信息。

這些模型如同機器人的「社交大腦」。當機器人看到某個情景或接收到語言指令時,框架會通過「學習」這些信息,迅速生成合適的動作。

例如,看到某個人正在解題,機器人會自動做出一個「豎大拇指」的手勢,以表達鼓勵和支持。

這種能力的核心,在於機器人能根據社交環境自動「判斷」最合適的動作,而不是依賴於預設的、固定的程序。

(EMOTION框架下機器人的環境判斷)

那麼,EMOTION是如何做到這一點的呢?

其實,它的工作流程就像是一個高度智能化的「手勢工廠」。

首先,機器人會通過「上下文學習」,即理解當前情境所傳達的情感和信息。當機器人接收到社交情境的輸入時,比如一個語言指令,或者是機器人對周圍環境的視覺觀察,它會根據這些理解,通過模型生成符合情境的動作序列,就像畫家根據不同的題材創作出各具風格的作品。

這一過程的關鍵在於動態生成。與傳統的預設手勢不同,EMOTION能夠根據每一次交互的獨特情境,生成與之最匹配的手勢。例如,機器人可能會因為不同的情緒表達或任務需求,做出不同的手勢,而不是重複固定的動作。這使得機器人不僅是一個簡單的「執行者」,更像是一個可以與人類進行富有表現力對話的夥伴。

其次,儘管EMOTION本身已能夠生成多樣化的手勢,但人類的反饋仍然是提升互動質量的關鍵。通過引入EMOTION++版本,機器人能夠在與人類的互動中,學習和調整自己的表現。這個過程就像是一個藝術家不斷在作品上進行打磨,直到它達到了更為自然和合適的效果。

(EMOTION框架下,機器人在人類反饋之下的手勢互動)

在這個過程中,人類可以通過反饋告訴機器人哪些動作看起來更自然、哪些手勢更易於理解。例如,假如機器人做出一個「聽」的手勢,但這個手勢的手臂位置不夠直觀,可能讓人誤解為「停止」或「擁抱」,那麼通過人類的調整建議,機器人可以優化這個手勢,最終呈現出更加合適的表達。

通過這種人類反饋的持續優化,機器人生成的動作變得更加符合人類的期望和社交習慣,從而提升了機器人在互動中的自然性和可理解度。最終,EMOTION框架不僅使機器人能夠做出正確的手勢,還能使它們在與人類交流時表現得更富有「情感」和「智慧」。

手勢魅力大比拼:機器人 VS 人類

爲了驗證EMOTION框架的有效性,研究團隊設計了一項用户研究,目的就是對比EMOTION生成的手勢與人類親自表演的手勢在自然性和理解度上的差異。

這就像是在評選誰的「表演」更具魅力——是機器人還是人類?

在實驗中,參與者觀看了由機器人和人類演示的手勢視頻,然后對這些手勢的自然性和可理解性進行了評分。結果顯示,EMOTION生成的手勢與人類手勢之間並沒有顯著的差異。簡而言之,機器人做的手勢在大多數情況下與人類的動作一樣自然、容易理解。

(用户對生成的機器人表現性行為的可理解性和自然性的評分,按手勢分類。*和**表示統計學意義,其中*表示p < 0.05,**表示p < 0.01。誤差條表示均值的標準誤差(SE))

(ORACLE:表示由人類示範的手勢,是實驗中的對比組,作為參考。EMOTION:表示由EMOTION框架生成的手勢,基於大型語言模型(LLM)和視覺語言模型(VLM)進行生成的機器人手勢。EMOTION++:表示通過EMOTION框架生成的手勢,但在此基礎上引入了人類反饋(優化版本),以進一步提升手勢的自然性和可理解度。)

然而,儘管EMOTION表現良好,它仍有一些不足,特別是在某些細節的處理上。部分手勢,尤其是更為複雜或細膩的動作,仍需要進一步的優化和調整。

那麼,是什麼影響了這些手勢的自然性和理解度呢?

第一點,研究表明,手勢的細節在這其中起着至關重要的作用,也就是硬件限制。

比如,當前的機器人硬件可能無法靈活地模擬所有細膩的手勢。例如,手的位置和手指的姿勢直接決定了手勢是否能夠準確傳達意圖。就像你在用手勢傳達「OK」時,如果手指的彎曲程度不對,別人可能會誤解成「歪了的OK」或者完全不理解你的意圖。

(機械手的運動序列)

第二點,動作模式也起到了重要作用。想象一下,如果你讓機器人做一個「停止」的手勢,動作的「流暢性」和「直觀性」決定了觀眾能否立刻理解這個動作。如果動作過於生硬,或是路徑不夠直接,就容易造成誤解。因此,EMOTION需要精細調整手勢的流暢度和準確度,確保每一個動作都能迅速且準確地傳達出正確的信息。

第三點,計算時間是挑戰。生成每個動作序列需要一定的時間,而目前的計算速度可能不能滿足實時互動的需求。爲了讓機器人能夠像人類一樣在自然對話中快速做出反應,計算時間需要進一步減少。

(通過多次運行實驗,計算了每次生成手勢所需的平均時間,並考慮了計算中可能的波動(標準差);Initial sequence(初始序列),Single-round HF(單輪人類反饋))

通過實驗統計顯示:

第一,生成初始動作序列的時間普遍較長。例如,對於「Thumbs-up」手勢,初始序列生成的時間為28.7秒,而其他手勢的時間也大致在24秒到33秒之間。這表明,機器人在初次生成動作時,需要較多的計算和處理時間。

第二,在加入人類反饋后,計算時間普遍縮短。例如,「Thumbs-up」手勢在人類反饋后的時間降至24.4秒,相較於初始生成的時間,明顯減少。這意味着,通過人類反饋優化手勢序列后,機器人能夠更高效地調整和改進動作。

面對這些挑戰,未來的解決方向包括優化硬件設計,提升機器人的關節和手指靈活性;同時,加速計算過程,利用更高效的算法和本地化計算,縮短響應時間。

隨着EMOTION框架的進一步發展,機器人不僅能在實驗環境中表現出色,還可以在不同的應用場景中發揮更大的潛力。例如,家庭助手、教育機器人、醫療機器人等,未來都能借助EMOTION框架,進行更加自然和富有表現力的互動。

編輯/rice

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。