近日,美國專利局公布了蘋果公司一項與基於視覺的手勢定製相關的專利申請。這一領域正日益受到關注,特別是在機器學習技術飛速發展的背景下。
蘋果指出,隨著訓練數據獲取途徑的增多以及計算硬體性能的提升,機器學習技術在近年來熱度飆升。手勢識別作為機器學習的一個重要應用,極大地推動了人與機器之間的交流,使之變得更加無縫和直觀。手勢識別技術廣泛應用於 VR、遊戲、智能家居控制等多個領域。
然而,在支持不同領域的人機交互應用時,手勢的自動識別面臨諸多挑戰。用戶不再滿足於僅能識別預定義手勢,而是期望能夠自定義屬於自己的手勢,以增強對操作的記憶、提升操作效率,並為有特殊需求的人群提供更廣泛的便利。
要實現有效的自定義手勢,不僅需要高效且用戶體驗良好的數據收集程序,還需應對從有限樣本中學習這一難題,即少量學習(FSL)問題。FSL 是一項極具挑戰性的任務,模型需要在整合先前知識與極少新資訊的同時,避免過度擬合現象。
為攻克 FSL 在手勢識別方面的難題,研究人員探索了多種算法,但傳統策略在源手勢與目標手勢差異顯著時往往受限。此外,不同類型的數據適用不同的增強方法,生成建模也面臨數據幻覺等相關問題。
相比之下,蘋果提出的基於元學習的手勢定製綜合框架,成功攻克了 FSL 在手勢識別領域的難題。該框架藉助一個或多個成像傳感器(如 RGB 相機),能夠適配各類手勢,包括靜態、動態、單手以及雙手手勢。用戶僅需進行一次演示,即可完成定製。
該技術融合了圖形變換器、遷移學習以及元學習技術,通過預先訓練的圖形變換器深度神經網路助力小樣本學習,並藉助元學習與元增強技術的協同作用,為整個過程提供有力支持。