加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 研究背景與動(dòng)機(jī)
    • 主要貢獻(xiàn)
    • 實(shí)驗(yàn)與結(jié)果
    • 結(jié)論
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

利用時(shí)間因果關(guān)系進(jìn)行高級(jí)時(shí)間動(dòng)作檢測(cè)

08/05 11:00
1528
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

論文 Harnessing Temporal Causality for Advanced Temporal Action Detection 探討了在時(shí)間動(dòng)作檢測(cè)(Temporal Action Detection, TAD)中利用時(shí)間因果關(guān)系的重要性,并提出了一種新穎的混合因果塊(Hybrid Causal Block)來(lái)增強(qiáng)時(shí)間關(guān)系建模。

研究背景與動(dòng)機(jī)

時(shí)間動(dòng)作檢測(cè)是視頻理解中的一個(gè)重要任務(wù),旨在識(shí)別視頻中動(dòng)作發(fā)生的時(shí)間段?,F(xiàn)有的方法大多忽略了時(shí)間因果關(guān)系,通常對(duì)過(guò)去和未來(lái)的信息對(duì)稱處理。然而,在實(shí)際場(chǎng)景中,動(dòng)作邊界通常受到因果事件的影響,利用時(shí)間因果關(guān)系可以提高動(dòng)作檢測(cè)的準(zhǔn)確性。

(a) 標(biāo)準(zhǔn)的時(shí)間建模方法對(duì)過(guò)去和未來(lái)的上下文一視同仁,例如卷積、圖網(wǎng)絡(luò)和自注意力機(jī)制,忽略了動(dòng)作邊界變化本質(zhì)上是因果事件這一事實(shí)。(b) 和 (c) 通過(guò)分別限制模型僅訪問(wèn)過(guò)去或未來(lái)的上下文來(lái)緩解這個(gè)問(wèn)題。

主要貢獻(xiàn)

強(qiáng)調(diào)時(shí)間因果關(guān)系的重要性:提出了一種混合因果塊,結(jié)合了因果自注意力(causal self-attention)和因果Mamba機(jī)制,以增強(qiáng)時(shí)間關(guān)系建模。

實(shí)現(xiàn)了最先進(jìn)的性能:在多個(gè)TAD數(shù)據(jù)集上取得了最先進(jìn)的性能,特別是在EPIC-Kitchens和Ego4D挑戰(zhàn)賽中排名第一。

方法論

論文提出了一種一階段檢測(cè)框架,包括特征提取和動(dòng)作檢測(cè)兩個(gè)部分:

特征提取

視頻編碼器:使用預(yù)訓(xùn)練的動(dòng)作識(shí)別模型作為視頻編碼器,提取語(yǔ)義豐富的視頻特征。

視頻分割:將未剪輯的視頻分割成多個(gè)短片段,并使用滑動(dòng)窗口方法獨(dú)立提取每個(gè)片段的特征。每個(gè)視頻片段可能會(huì)與其他片段重疊,具體取決于滑動(dòng)窗口的步長(zhǎng)。

空間-時(shí)間平均池化:在視頻骨干網(wǎng)絡(luò)之后應(yīng)用空間-時(shí)間平均池化,以獲得每個(gè)片段的密集視頻特征。

動(dòng)作檢測(cè)

檢測(cè)模型:基于ActionFormer方法,使用混合因果塊替代原有的Transformer塊,以增強(qiáng)檢測(cè)性能。

優(yōu)化超參數(shù):在Ego4D-MQ和EPIC-Kitchens數(shù)據(jù)集上,優(yōu)化了四個(gè)超參數(shù):特征金字塔層數(shù)、回歸損失權(quán)重、輸入通道丟棄概率和訓(xùn)練周期數(shù)。

時(shí)間因果建模

因果Mamba塊:專注于因果建模,僅考慮前面的tokens。與Transformer的全序列自注意力不同,因果Mamba塊在前向和后向掃描方向上捕捉時(shí)間上下文。

混合因果塊:結(jié)合了因果自注意力和因果Mamba機(jī)制,能夠更好地捕捉動(dòng)作轉(zhuǎn)換的時(shí)間依賴性和因果關(guān)系。

混合因果塊。我們將多頭自注意力(MHSA)和Mamba塊(SSM)結(jié)合在一起,并將它們的可見時(shí)間上下文限制為僅過(guò)去或未來(lái)的tokens,旨在捕捉長(zhǎng)距離的時(shí)間依賴性和因果關(guān)系。前向和后向的MHSA和SSM中的參數(shù)是共享的,以減少TAD中的過(guò)擬合問(wèn)題。

實(shí)驗(yàn)與結(jié)果

數(shù)據(jù)集與指標(biāo)

數(shù)據(jù)集:在ActivityNet-1.3、THUMOS14、EPIC-Kitchens 100和Ego4D Moment Queries四個(gè)數(shù)據(jù)集上進(jìn)行評(píng)估。ActivityNet-1.3和THUMOS14包含第三人稱未剪輯視頻,而EPIC-Kitchens和Ego4D-MQ包含第一人稱視頻。

評(píng)價(jià)指標(biāo):使用平均精度(mAP)在不同IoU閾值下的平均mAP作為評(píng)價(jià)指標(biāo)。

性能比較

消融研究:在Ego4D-MQ數(shù)據(jù)集上進(jìn)行消融研究,驗(yàn)證了混合因果塊的有效性。通過(guò)優(yōu)化檢測(cè)模型的超參數(shù),mAP從27.52%提高到29.45%。替換ActionFormer中的局部Transformer為因果注意力塊后,mAP進(jìn)一步提高到30.87%。最終,混合因果塊在驗(yàn)證集上取得了32.19%的mAP,在測(cè)試集上取得了31.92%的mAP。

特征組合:使用InternVideo2特征進(jìn)一步提高性能,在測(cè)試集上達(dá)到34.12%的mAP。最終,通過(guò)結(jié)合InternVideo1和InternVideo2特征,平均mAP達(dá)到34.99%,Recall@1x在tIoU=0.5時(shí)達(dá)到52.83%,在Ego4D Moment Query Challenge 2024中排名第一。

結(jié)論

論文提出的混合因果塊在TAD任務(wù)中表現(xiàn)出色,實(shí)驗(yàn)結(jié)果表明其在多個(gè)數(shù)據(jù)集上具有顯著的性能提升。未來(lái)的研究可以進(jìn)一步探索高效的端到端訓(xùn)練方法,以應(yīng)對(duì)大規(guī)模視頻數(shù)據(jù)的挑戰(zhàn)。

相關(guān)信息

代碼:https://github.com/sming256/OpenTAD

論文:https://arxiv.org/abs/2407.17792v2

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
STM32F103CBT6TR 1 STMicroelectronics Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN

ECAD模型

下載ECAD模型
$9.18 查看
STM8S003F3P6 1 STMicroelectronics Mainstream Value line 8-bit MCU with 8 Kbytes Flash, 16 MHz CPU, integrated EEPROM

ECAD模型

下載ECAD模型
$1.53 查看
ATMEGA128A-AU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 64TQFP

ECAD模型

下載ECAD模型
$6.7 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜