托尼贾电影,我的前半生第二部62集

模仿學(xué)習(xí) (Imitation Learning) 與強(qiáng)化學(xué)習(xí)一樣，為了學(xué)習(xí)策略網(wǎng)絡(luò)，從而控制智能體。但是！兩者原理不同，

模仿學(xué)習(xí)向人類專家學(xué)習(xí)，目標(biāo)是讓策略網(wǎng)絡(luò)做出的決策與人類專家相同。

強(qiáng)化學(xué)習(xí)利用環(huán)境反饋的獎勵改進(jìn)策略，目標(biāo)是讓累計(jì)回報(bào)最大化。

本文介紹模仿學(xué)習(xí)中最簡單和基礎(chǔ)的行為克隆(Behavior Cloning)，并總結(jié)它與強(qiáng)化學(xué)習(xí)的區(qū)別與結(jié)合。

含義

行為克隆的目的是模仿人的動作，學(xué)出一個隨機(jī)策略網(wǎng)絡(luò) π(a|s; θ) 或者確定策略網(wǎng)絡(luò) μ(s; θ)。雖然行為克隆的目的與強(qiáng)化學(xué)習(xí)中的策略學(xué)習(xí)類似，但是行為克隆的本質(zhì)是監(jiān)督學(xué)習(xí)（分類或者回歸），而不是強(qiáng)化學(xué)習(xí)。行為克隆通過模仿人類專家的動作來學(xué)習(xí)策略，而強(qiáng)化學(xué)習(xí)則是從獎勵中學(xué)習(xí)策略。

模仿學(xué)習(xí)需要一個事先準(zhǔn)備好的數(shù)據(jù)集，由（狀態(tài)，動作）這樣的二元組構(gòu)成，

在這里插入圖片描述

其中sj 是一個狀態(tài)，而對應(yīng)的 aj 是人類專家基于狀態(tài) sj 做出的動作?？梢园?sj 和 aj分別視作監(jiān)督學(xué)習(xí)中的輸入和標(biāo)簽。

連續(xù)控制問題

動作空間 A 是連續(xù)集合，行為克隆用回歸的方法訓(xùn)練確定策略網(wǎng)絡(luò)。

在這里插入圖片描述

定義損失函數(shù)：
在這里插入圖片描述

損失函數(shù)越小，說明策略網(wǎng)絡(luò)的決策越接近人的動作。用梯度更新 θ：

在這里插入圖片描述

離散控制問題

動作空間 A 是離散集合，行為克隆把策略網(wǎng)絡(luò) π(a|s; θ) 看做一個多類別分類器，用監(jiān)督學(xué)習(xí)的方法訓(xùn)練這個分類器。

在這里插入圖片描述

行為克隆與強(qiáng)化學(xué)習(xí)對比

前面反復(fù)講過，行為克隆不是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)讓智能體與環(huán)境交互，用環(huán)境反饋的獎勵指導(dǎo)策略網(wǎng)絡(luò)的改進(jìn)，目的是最大化回報(bào)的期望。行為克隆的本質(zhì)是監(jiān)督學(xué)習(xí)，利用事先準(zhǔn)備好的數(shù)據(jù)集，用人類的動作指導(dǎo)策略網(wǎng)絡(luò)的改進(jìn)，目的是讓策略網(wǎng)絡(luò)的決策更像人類的決策。

行為克隆訓(xùn)練出的策略網(wǎng)絡(luò)通常效果不佳。人類不會探索奇怪的狀態(tài)和動作，因此數(shù)據(jù)集上的狀態(tài)和動作缺乏多樣性。在數(shù)據(jù)集上做完行為克隆之后，智能體面對真實(shí)的環(huán)境，可能會見到陌生的狀態(tài)，智能體的決策可能會很糟糕。行為克隆存在“錯誤累加”的缺陷。假如當(dāng)前智能體的決策 at 不夠好。那么下一時刻的狀態(tài) st+1 可能會比較罕見，于是智能體的決策 at+1 會很差；這又導(dǎo)致狀態(tài) st+2 非常奇怪，使得決策 at+2 更糟糕。行為克隆訓(xùn)練出的策略常會進(jìn)入這種惡性循環(huán)。
強(qiáng)化學(xué)習(xí)效果通常優(yōu)于行為克隆。如果用強(qiáng)化學(xué)習(xí)，那么智能體探索過各種各樣的狀態(tài)，嘗試過各種各樣的動作，知道面對各種狀態(tài)時應(yīng)該做什么決策。智能體通過探索，各種狀態(tài)都見過，比行為克隆有更多的“人生經(jīng)驗(yàn)”，因此表現(xiàn)會更好。

強(qiáng)化學(xué)習(xí)的一個缺點(diǎn)在于需要與環(huán)境交互，需要探索，而且會改變環(huán)境。 而在現(xiàn)實(shí)探索的代價有時是很大的，比如手術(shù)機(jī)器人和無人車。
行為克隆的優(yōu)勢在于離線訓(xùn)練，可以避免與真實(shí)環(huán)境的交互，不會對環(huán)境產(chǎn)生影響。假如用行為克隆訓(xùn)練手術(shù)機(jī)器人，只需要把人類醫(yī)生的觀測和動作記錄下來，離線訓(xùn)練手術(shù)機(jī)器人，而不需要真的在病人身上做實(shí)驗(yàn)。盡管行為克隆效果不如強(qiáng)化學(xué)習(xí)，但是行為克隆的成本低。可以先用行為克隆初始化策略網(wǎng)絡(luò)，而不是隨機(jī)初始化，然后再做強(qiáng)化學(xué)習(xí)，這樣可以減小對物理世界的有害影響。

本文內(nèi)容為看完王樹森和張志華老師的《深度強(qiáng)化學(xué)習(xí)》一書的學(xué)習(xí)筆記，十分推薦大家去看原書！

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
SN65HVD234D	1	Texas Instruments	3.3 V CAN Transceiver with Sleep Mode 8-SOIC -40 to 125	ECAD模型下載ECAD模型	$3.95	查看
NCV7321D12R2G	1	onsemi	LIN Transceiver, Stand-alone ESD Improved, 3000-REEL		$1.11	查看
CY62167EV30LL-45ZXI	1	Cypress Semiconductor	Standard SRAM, 1MX16, 45ns, CMOS, PDSO48, TSOP1-48		$69.33	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險(xiǎn)等級

參考價格

更多信息

SN65HVD234D

Texas Instruments

3.3 V CAN Transceiver with Sleep Mode 8-SOIC -40 to 125