图片区小说区,国产亚洲小视频,鬼灭之刃第三季一共多少集

論文 Harnessing Temporal Causality for Advanced Temporal Action Detection 探討了在時(shí)間動(dòng)作檢測(cè)（Temporal Action Detection, TAD）中利用時(shí)間因果關(guān)系的重要性，并提出了一種新穎的混合因果塊（Hybrid Causal Block）來(lái)增強(qiáng)時(shí)間關(guān)系建模。

研究背景與動(dòng)機(jī)

時(shí)間動(dòng)作檢測(cè)是視頻理解中的一個(gè)重要任務(wù)，旨在識(shí)別視頻中動(dòng)作發(fā)生的時(shí)間段?，F(xiàn)有的方法大多忽略了時(shí)間因果關(guān)系，通常對(duì)過(guò)去和未來(lái)的信息對(duì)稱處理。然而，在實(shí)際場(chǎng)景中，動(dòng)作邊界通常受到因果事件的影響，利用時(shí)間因果關(guān)系可以提高動(dòng)作檢測(cè)的準(zhǔn)確性。

(a) 標(biāo)準(zhǔn)的時(shí)間建模方法對(duì)過(guò)去和未來(lái)的上下文一視同仁，例如卷積、圖網(wǎng)絡(luò)和自注意力機(jī)制，忽略了動(dòng)作邊界變化本質(zhì)上是因果事件這一事實(shí)。(b) 和 (c) 通過(guò)分別限制模型僅訪問(wèn)過(guò)去或未來(lái)的上下文來(lái)緩解這個(gè)問(wèn)題。

主要貢獻(xiàn)

強(qiáng)調(diào)時(shí)間因果關(guān)系的重要性：提出了一種混合因果塊，結(jié)合了因果自注意力（causal self-attention）和因果Mamba機(jī)制，以增強(qiáng)時(shí)間關(guān)系建模。

實(shí)現(xiàn)了最先進(jìn)的性能：在多個(gè)TAD數(shù)據(jù)集上取得了最先進(jìn)的性能，特別是在EPIC-Kitchens和Ego4D挑戰(zhàn)賽中排名第一。

方法論

論文提出了一種一階段檢測(cè)框架，包括特征提取和動(dòng)作檢測(cè)兩個(gè)部分：

特征提取

視頻編碼器：使用預(yù)訓(xùn)練的動(dòng)作識(shí)別模型作為視頻編碼器，提取語(yǔ)義豐富的視頻特征。

視頻分割：將未剪輯的視頻分割成多個(gè)短片段，并使用滑動(dòng)窗口方法獨(dú)立提取每個(gè)片段的特征。每個(gè)視頻片段可能會(huì)與其他片段重疊，具體取決于滑動(dòng)窗口的步長(zhǎng)。

空間-時(shí)間平均池化：在視頻骨干網(wǎng)絡(luò)之后應(yīng)用空間-時(shí)間平均池化，以獲得每個(gè)片段的密集視頻特征。

動(dòng)作檢測(cè)

檢測(cè)模型：基于ActionFormer方法，使用混合因果塊替代原有的Transformer塊，以增強(qiáng)檢測(cè)性能。

優(yōu)化超參數(shù)：在Ego4D-MQ和EPIC-Kitchens數(shù)據(jù)集上，優(yōu)化了四個(gè)超參數(shù)：特征金字塔層數(shù)、回歸損失權(quán)重、輸入通道丟棄概率和訓(xùn)練周期數(shù)。

時(shí)間因果建模

因果Mamba塊：專注于因果建模，僅考慮前面的tokens。與Transformer的全序列自注意力不同，因果Mamba塊在前向和后向掃描方向上捕捉時(shí)間上下文。

混合因果塊：結(jié)合了因果自注意力和因果Mamba機(jī)制，能夠更好地捕捉動(dòng)作轉(zhuǎn)換的時(shí)間依賴性和因果關(guān)系。

混合因果塊。我們將多頭自注意力（MHSA）和Mamba塊（SSM）結(jié)合在一起，并將它們的可見時(shí)間上下文限制為僅過(guò)去或未來(lái)的tokens，旨在捕捉長(zhǎng)距離的時(shí)間依賴性和因果關(guān)系。前向和后向的MHSA和SSM中的參數(shù)是共享的，以減少TAD中的過(guò)擬合問(wèn)題。

實(shí)驗(yàn)與結(jié)果

數(shù)據(jù)集與指標(biāo)

數(shù)據(jù)集：在ActivityNet-1.3、THUMOS14、EPIC-Kitchens 100和Ego4D Moment Queries四個(gè)數(shù)據(jù)集上進(jìn)行評(píng)估。ActivityNet-1.3和THUMOS14包含第三人稱未剪輯視頻，而EPIC-Kitchens和Ego4D-MQ包含第一人稱視頻。

評(píng)價(jià)指標(biāo)：使用平均精度（mAP）在不同IoU閾值下的平均mAP作為評(píng)價(jià)指標(biāo)。

性能比較

消融研究：在Ego4D-MQ數(shù)據(jù)集上進(jìn)行消融研究，驗(yàn)證了混合因果塊的有效性。通過(guò)優(yōu)化檢測(cè)模型的超參數(shù)，mAP從27.52%提高到29.45%。替換ActionFormer中的局部Transformer為因果注意力塊后，mAP進(jìn)一步提高到30.87%。最終，混合因果塊在驗(yàn)證集上取得了32.19%的mAP，在測(cè)試集上取得了31.92%的mAP。

特征組合：使用InternVideo2特征進(jìn)一步提高性能，在測(cè)試集上達(dá)到34.12%的mAP。最終，通過(guò)結(jié)合InternVideo1和InternVideo2特征，平均mAP達(dá)到34.99%，Recall@1x在tIoU=0.5時(shí)達(dá)到52.83%，在Ego4D Moment Query Challenge 2024中排名第一。

結(jié)論

論文提出的混合因果塊在TAD任務(wù)中表現(xiàn)出色，實(shí)驗(yàn)結(jié)果表明其在多個(gè)數(shù)據(jù)集上具有顯著的性能提升。未來(lái)的研究可以進(jìn)一步探索高效的端到端訓(xùn)練方法，以應(yīng)對(duì)大規(guī)模視頻數(shù)據(jù)的挑戰(zhàn)。

相關(guān)信息

代碼：https://github.com/sming256/OpenTAD

論文：https://arxiv.org/abs/2407.17792v2

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
STM32F103CBT6TR	1	STMicroelectronics	Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN	ECAD模型下載ECAD模型	$9.18	查看
STM8S003F3P6	1	STMicroelectronics	Mainstream Value line 8-bit MCU with 8 Kbytes Flash, 16 MHz CPU, integrated EEPROM	ECAD模型下載ECAD模型	$1.53	查看
ATMEGA128A-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64TQFP	ECAD模型下載ECAD模型	$6.7	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

STM32F103CBT6TR

STMicroelectronics

Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN