論文 SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders 提出了一種名為SA-DVAE(Semantic Alignment via Disentangled Variational Autoencoders)的新方法,用于改進零樣本骨架動作識別。
研究背景
動作識別是一個長期活躍的研究領域,具有廣泛的應用,如監(jiān)控、監(jiān)測和人機交互。根據輸入數據類型,動作識別可以分為基于圖像、視頻、深度和骨架的識別。本文聚焦于骨架動作識別,這種方法由于姿態(tài)估計和傳感器技術的進步,成為視頻動作識別的一個可行替代方案。骨架動作識別對外觀和背景變化具有魯棒性,但現有方法主要依賴于監(jiān)督學習,需要大量標注數據,這既昂貴又耗時。
與現有方法的比較。我們的方法是第一個將特征解耦應用于基于骨架的零樣本動作識別問題的方法。所有現有方法都直接將骨架特征與文本特征對齊,而我們的方法只將語義相關的部分骨架特征與文本特征對齊。
問題陳述
在一些情況下,訓練數據難以獲取或受到隱私問題的限制,零樣本學習(ZSL)提供了一種替代方案,通過利用未見類的名稱、屬性或描述來識別未見動作?,F有的骨架動作識別方法假設骨架序列捕捉良好且高度一致,主要關注如何語義優(yōu)化文本表示。然而,通過對NTU RGB+D和PKU-MMD兩個廣泛使用的基準數據集進行仔細檢查,發(fā)現這種假設是有問題的。相機位置和演員動作差異會帶來顯著噪聲。
方法介紹
受現有ZSL方法的啟發(fā),SA-DVAE通過將骨架潛在特征空間解耦為語義相關和語義無關的兩個部分來解決泛化問題。具體來說,SA-DVAE包括以下幾個關鍵組件:
SA-DVAE的系統(tǒng)架構。首先,使用特征提取器來提取特征。隨后,跨模態(tài)對齊模塊對齊兩種模態(tài)并生成語義相關的未見骨架特征(zxr)。這些生成的特征用于訓練分類器。
跨模態(tài)對齊模塊。該模塊有兩個主要任務:通過自重建構建潛在空間和通過交叉重建進行跨模態(tài)對齊。骨架特征被解耦為語義相關(zxr)和語義無關(zxv)的因素。
特征解耦:將骨架特征分解為語義相關和語義無關的部分,僅對語義相關的部分進行對齊。
對抗性總相關懲罰:通過一個對抗性鑒別器來鼓勵兩個解耦特征之間的獨立性,減少共享信息。
實驗結果
在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD數據集上進行的廣泛實驗表明,SA-DVAE在ZSL和廣義零樣本學習(GZSL)基準上達到了最先進的性能。具體結果如下:
- 在NTU RGB+D 60數據集上,SA-DVAE在GZSL協議下的準確率提高了7.25%和6.23%,在ZSL協議下提高了4.39%和1.2%。通過隨機選擇未見類進行多次實驗,SA-DVAE在不同特征提取器的設置下也表現出色。
結論
SA-DVAE通過使用特征解耦方法將骨架數據分為語義相關和無關的兩個獨立表示,并通過對抗性鑒別器來增強特征解耦,顯著提高了零樣本和廣義零樣本學習的性能。
相關信息
代碼:https://github.com/pha123661/SA-DVAE
論文:https://arxiv.org/abs/2407.13460v1