一个人免费看的www,表妹韩国手机版,隐秘而伟大免费观看全集

作者 | 陳鷺伊，編輯 | 岑? ?峰

“強(qiáng)化學(xué)習(xí)讓大模型具有了思考能力，大模型為強(qiáng)化學(xué)習(xí)提供了更開(kāi)闊的思路。”?

在當(dāng)今大模型推動(dòng)的新一波人工智能的快速發(fā)展浪潮中，大模型和強(qiáng)化學(xué)習(xí)技術(shù)的結(jié)合成為研究和產(chǎn)業(yè)界的焦點(diǎn)。尤其最近OpenAI最新模型o1的發(fā)布，強(qiáng)化學(xué)習(xí)成為o1的靈魂，更是印證了強(qiáng)化學(xué)習(xí)的潛力。

大模型憑借其強(qiáng)大的數(shù)據(jù)處理能力，為強(qiáng)化學(xué)習(xí)提供了豐富的知識(shí)。這種結(jié)合不僅極大地?cái)U(kuò)展了人工智能在處理復(fù)雜問(wèn)題上的能力，也為強(qiáng)化學(xué)習(xí)帶來(lái)了更深層次的洞察力和更高效的決策過(guò)程。

強(qiáng)化學(xué)習(xí)，作為優(yōu)化決策的一種方法，能夠通過(guò)與環(huán)境的交互學(xué)習(xí)最佳行為策略。而大模型則為這一過(guò)程提供了必要的背景知識(shí)和先驗(yàn)信息，使得強(qiáng)化學(xué)習(xí)算法能夠更快地收斂，更有效地處理未見(jiàn)過(guò)的新情況。然而，新技術(shù)的發(fā)展同樣帶來(lái)了挑戰(zhàn)。例如，如何利用大模型的知識(shí)拓展強(qiáng)化學(xué)習(xí)的泛化能力，提升強(qiáng)化學(xué)習(xí)在復(fù)雜決策場(chǎng)景中的策略性能，以及如何保證模型的可解釋性。近期，南洋理工大學(xué)安波教授團(tuán)隊(duì)的一篇論文《TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning》上線期刊《International Journal of Artificial Intelligence and Robotics Research》（IJAIRR）。

該論文提出了一個(gè)名為T(mén)WOSOME的框架，旨在通過(guò)強(qiáng)化學(xué)習(xí)（RL）將大型語(yǔ)言模型（LLMs）與具身環(huán)境（embodied environments）對(duì)齊，以解決決策任務(wù)。

圍繞該論文所討論的強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型、具身環(huán)境相結(jié)合的研究，雷峰網(wǎng)舉辦的「大模型時(shí)代的強(qiáng)化學(xué)習(xí)」線上研討會(huì)，匯集了南洋理工大學(xué)安波、南京大學(xué)俞揚(yáng)、華為諾亞方舟實(shí)驗(yàn)室/天津大學(xué)郝建業(yè)、清華大學(xué)許華哲等行業(yè)專家。他們的見(jiàn)解覆蓋了從基礎(chǔ)理論研究到產(chǎn)業(yè)應(yīng)用實(shí)踐，為我們提供了一個(gè)全面而深入的視角，以洞察這一領(lǐng)域的最新發(fā)展和未來(lái)趨勢(shì)。

在本次研討會(huì)中，安波教授深入分析了大模型對(duì)于強(qiáng)化學(xué)習(xí)的意義，并對(duì)這一技術(shù)的未來(lái)發(fā)展進(jìn)行了展望；分享了他對(duì)大模型時(shí)代強(qiáng)化學(xué)習(xí)的看法，包括大模型給強(qiáng)化學(xué)習(xí)帶來(lái)的機(jī)遇和挑戰(zhàn)，并主持了整個(gè)討論。

俞揚(yáng)教授基于給定的問(wèn)題進(jìn)行了深入拓展，特別強(qiáng)調(diào)了世界模型的重要性，他認(rèn)為構(gòu)建準(zhǔn)確的世界模型是實(shí)現(xiàn)真正智能決策的關(guān)鍵。他強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中的重要性和挑戰(zhàn)，并通過(guò)在工業(yè)界應(yīng)用強(qiáng)化學(xué)習(xí)的實(shí)際案例，討論了如何利用強(qiáng)化學(xué)習(xí)優(yōu)化復(fù)雜的決策過(guò)程。

郝建業(yè)教授指出了大模型中強(qiáng)化學(xué)習(xí)的作用，包括安全對(duì)齊和人類(lèi)價(jià)值觀對(duì)齊，并分享了強(qiáng)化學(xué)習(xí)技術(shù)在推薦系統(tǒng)、游戲AI、工業(yè)軟件優(yōu)化以及自動(dòng)駕駛等領(lǐng)域的應(yīng)用，以及大模型技術(shù)如何幫助強(qiáng)化學(xué)習(xí)解決一些傳統(tǒng)優(yōu)化問(wèn)題等。

許華哲教授，以他在具身智能領(lǐng)域的前沿研究為基礎(chǔ)，展示了強(qiáng)化學(xué)習(xí)如何使機(jī)器人更加智能化，分享了他在具身智能領(lǐng)域的研究，特別是強(qiáng)化學(xué)習(xí)在機(jī)器人步態(tài)優(yōu)化和Minecraft等環(huán)境中的創(chuàng)新應(yīng)用。

以下為本次圓桌對(duì)話全文，限于篇幅，雷峰網(wǎng)-AI科技評(píng)論進(jìn)行了不改原意的編輯：

安波：AI 科技評(píng)論以及雷峰網(wǎng)線上的朋友們，大家晚上好，歡迎參加今天晚上我們這個(gè)網(wǎng)絡(luò)研討會(huì)。今天我們這個(gè)題目叫大模型時(shí)代的這個(gè)強(qiáng)化學(xué)習(xí)，我叫安波，來(lái)自南洋理工大學(xué)，我將主持今天晚上的研討會(huì)。關(guān)于這個(gè)題目我稍微說(shuō)兩句。強(qiáng)化學(xué)習(xí)這個(gè)方向最近十多年尤其在Alphago 之后是一個(gè)比較火的方向，差不多我們可以看到 Deepmind 的整個(gè)公司，估計(jì)早期 100% 都在干這個(gè)東西，這些年來(lái)每年都有很多非常轟動(dòng)的成果。無(wú)論是Alphago，還有 AlphaFold ，最近的應(yīng)用于大模型的RLHF，都是跟強(qiáng)化學(xué)習(xí)相關(guān)的。當(dāng)然我們也不可避免地存在很多挑戰(zhàn)，尤其是之前有人一直在抱怨，好像（強(qiáng)化學(xué)習(xí)）很多都是以打游戲這樣的場(chǎng)景為主，真正的在現(xiàn)實(shí)工業(yè)的落地場(chǎng)景還不夠多。我們今天晚上另一個(gè)話題是大模型，大家都知道這是這兩年最火的方向。最近也出現(xiàn)了很多工作來(lái)結(jié)合這兩個(gè)方向，這也是我們今晚討論的話題。今天晚上我們很榮幸地邀請(qǐng)到了三位嘉賓。南大的俞揚(yáng)老師，是強(qiáng)化學(xué)習(xí)方面有很多有影響力的成果，他同時(shí)也在做強(qiáng)化學(xué)習(xí)落地的一些研究和應(yīng)用。還有郝建業(yè)老師，來(lái)自天津大學(xué)，同時(shí)他又是華為諾亞決策智能實(shí)驗(yàn)室的主任。華為諾亞這幾年做了很多強(qiáng)化的一些研究，都是在郝老師的領(lǐng)導(dǎo)下進(jìn)行。最后是清華大學(xué)許華哲老師，許老師更多的做具身智能的研究。這三位老師既在一線做前沿研究，同時(shí)也深入技術(shù)應(yīng)用與落地。就接下來(lái)我會(huì)邀請(qǐng)三位老師分別做一個(gè)簡(jiǎn)短的自我介紹。然后接下來(lái)我們會(huì)問(wèn)各位老師我們提前準(zhǔn)備好的幾個(gè)問(wèn)題，然后最后我們會(huì)進(jìn)入與觀眾的互動(dòng)環(huán)節(jié)，現(xiàn)在請(qǐng)俞老師、郝老師和許老師分別做個(gè)自我介紹。

俞揚(yáng)：大家好，感謝安老師的邀請(qǐng)。我是來(lái)自南京大學(xué)的俞揚(yáng)，大概在13、14年前我博士畢業(yè)后，就一直在研究強(qiáng)化學(xué)習(xí)。近幾年主要在做離線強(qiáng)化學(xué)習(xí)，就是強(qiáng)化學(xué)習(xí)怎么樣能夠更好用一些。

郝建業(yè)：大家好，感謝安老師邀請(qǐng)，我的主要研究方向是強(qiáng)化學(xué)習(xí)和多智能體系統(tǒng)。過(guò)去幾年主要圍繞強(qiáng)化學(xué)習(xí)以及學(xué)習(xí)優(yōu)化技術(shù)如何在產(chǎn)業(yè)界落地，做了不少的嘗試。過(guò)去兩年也比較關(guān)注大模型，包括強(qiáng)化學(xué)習(xí)如何助力大模型和基于大模型的具身智能方向。

許華哲：大家好，我是許華哲，目前是清華大學(xué)交叉信息研究院的助理教授，今天也是特別榮幸受到安老師的邀請(qǐng)。我的研究方向主要是具身智能，這是一個(gè)很大的概念，會(huì)使用各種學(xué)習(xí)的研究工具，而強(qiáng)化學(xué)習(xí)是里面我覺(jué)得是未來(lái)最廣闊，或者是未來(lái)最有前途的方法之一。我在強(qiáng)化學(xué)習(xí)方面的工作主要分兩個(gè)部分，一個(gè)部分就是仍然持續(xù)地提升強(qiáng)化學(xué)習(xí)的sample efficiency樣本效率。我們希望它做得足夠高效，讓它可以在真實(shí)世界去實(shí)施。第二件事，就是說(shuō)在這個(gè)基礎(chǔ)上，我希望讓機(jī)器人可以在不僅在仿真，而且還可以在現(xiàn)實(shí)世界去做強(qiáng)化學(xué)習(xí)，從而讓強(qiáng)化學(xué)習(xí)真正落地到這個(gè)機(jī)器人這個(gè)領(lǐng)域，或者具身智能這個(gè)領(lǐng)域。

01、強(qiáng)化學(xué)習(xí)：成功應(yīng)用與關(guān)鍵作用

安波：我首先想請(qǐng)教各位老師一個(gè)問(wèn)題，各位老師都在一線從事強(qiáng)化學(xué)習(xí)的研究以及落地，有哪些強(qiáng)化學(xué)習(xí)的成功案例讓您感到激動(dòng)？并請(qǐng)談?wù)勊鼈冊(cè)诟髯灶I(lǐng)域的推動(dòng)作用。從俞揚(yáng)老師開(kāi)始。

俞揚(yáng)：我覺(jué)得關(guān)于強(qiáng)化學(xué)習(xí)的成功應(yīng)用，首先需要明確我們?nèi)绾味x"成功"。自AlphaGo戰(zhàn)勝人類(lèi)以來(lái)，強(qiáng)化學(xué)習(xí)領(lǐng)域受到了廣泛關(guān)注。實(shí)際上，強(qiáng)化學(xué)習(xí)的應(yīng)用非常廣泛，包括工業(yè)界的一些案例。比如說(shuō)我們和這個(gè)美團(tuán)合作的項(xiàng)目，現(xiàn)在應(yīng)該已經(jīng)是在全國(guó)能夠鋪開(kāi)。那么我們?cè)诿缊F(tuán)每下一個(gè)訂單，每點(diǎn)一次外賣(mài)，都由我們強(qiáng)化學(xué)習(xí)的模型在做出決策。這對(duì)我們來(lái)說(shuō)是一個(gè)重要的應(yīng)用案例，它展示了強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用。但是在社會(huì)層面上，這種應(yīng)用可能沒(méi)有引起太大的宣傳效應(yīng)，或者說(shuō)我們說(shuō)給強(qiáng)化學(xué)習(xí)的研究生們創(chuàng)造飯碗的這個(gè)效應(yīng)可能沒(méi)有那么強(qiáng)。

如果從能夠產(chǎn)生很多工作崗位的這個(gè)角度來(lái)說(shuō)，我覺(jué)得這個(gè)可能最典型的成功案例就是用在大模型的RLHF，我們也做了一些工作。可能有同學(xué)了解， RLHF 還有其他路線的競(jìng)爭(zhēng)，包括這個(gè)監(jiān)督學(xué)習(xí)的路線的競(jìng)爭(zhēng)。但是我們的研究表明，監(jiān)督學(xué)習(xí)的方法得到的結(jié)果比強(qiáng)化學(xué)習(xí)的要差一些。包括我們自己的一些畢業(yè)生，也有去做大模型的 RLHF 的這個(gè)崗位。我觀察到，強(qiáng)化學(xué)習(xí)現(xiàn)在變得更加的成熟，逐漸地在越來(lái)越多的場(chǎng)景里面能夠更多的能夠用起來(lái)，至于它用起來(lái)產(chǎn)生的社會(huì)效益是否轟動(dòng)可能還不太好去評(píng)價(jià)。

郝建業(yè)：剛剛俞老師提到強(qiáng)化學(xué)習(xí)在推薦領(lǐng)域的應(yīng)用，我覺(jué)得可能是深度強(qiáng)化學(xué)習(xí)出現(xiàn)之后最火的應(yīng)用場(chǎng)景之一。另外一個(gè)就是游戲， Game AI ，很多游戲公司包括網(wǎng)易、騰訊其實(shí)有很多應(yīng)用，包括現(xiàn)在游戲背后的NPC，很多都是強(qiáng)化學(xué)習(xí)訓(xùn)練的結(jié)果。此外我想舉兩個(gè)可能不太常見(jiàn)的例子，一是工業(yè)界的軟件優(yōu)化，比如說(shuō) EDA 的芯片設(shè)計(jì)這塊，它本身有很多非常復(fù)雜的多目標(biāo)時(shí)序優(yōu)化問(wèn)題，過(guò)去幾年，我們嘗試把強(qiáng)化學(xué)習(xí)應(yīng)用在這個(gè)領(lǐng)域，當(dāng)然不僅僅是強(qiáng)化學(xué)習(xí)，還包含一些其他的優(yōu)化技術(shù)的組合，但強(qiáng)化學(xué)習(xí)在里面發(fā)揮一個(gè)比較關(guān)鍵的作用，實(shí)現(xiàn)比較復(fù)雜約束和搜索空間非常大的情況下的優(yōu)化問(wèn)題。

另一個(gè)例子是自動(dòng)駕駛。比如在自動(dòng)駕駛的關(guān)鍵博弈場(chǎng)景中嘗試應(yīng)用強(qiáng)化學(xué)習(xí)，實(shí)現(xiàn)類(lèi)人的博弈策略，提升自動(dòng)駕駛車(chē)輛在復(fù)雜路況下的通行效率。大模型方面剛剛俞老師也提到了，我們過(guò)往經(jīng)驗(yàn)發(fā)現(xiàn)，強(qiáng)化學(xué)習(xí)不僅僅像最開(kāi)始OpenAI提出，用 RLHF 來(lái)做安全的對(duì)齊，它還可以在大模型的全鏈或者全棧的基礎(chǔ)能力提升中發(fā)揮關(guān)鍵的作用。

從理論上看，PPO、DPO等算法的優(yōu)化的這個(gè)范式和標(biāo)準(zhǔn)的SFT 是不一樣的，可以發(fā)揮一些 SFT 無(wú)法實(shí)現(xiàn)的能力，可以幫助我們?cè)谶@個(gè)預(yù)訓(xùn)練到 SFT之后的后訓(xùn)練階段發(fā)揮更加關(guān)鍵的作用。此外，具身智能也是一個(gè)值得關(guān)注的領(lǐng)域。目前，這一領(lǐng)域正處于一個(gè)百花齊放的發(fā)展階段，但我覺(jué)得，未來(lái)無(wú)論是在線的還是離線的強(qiáng)化學(xué)習(xí)，在整個(gè)具身智能能力構(gòu)建的全階段，無(wú)論從數(shù)據(jù)的獲取到預(yù)訓(xùn)練，再到跟環(huán)境交互的 RLHF，都可以發(fā)揮非常關(guān)鍵的作用?？偟膩?lái)說(shuō)，強(qiáng)化學(xué)習(xí)作為一種通用優(yōu)化工具，是一套非常有效的方法，可以幫助我們?cè)诟鞣N復(fù)雜決策場(chǎng)景中提升策略性能。

安波：謝謝郝老師，有請(qǐng)?jiān)S老師分享一下。

許華哲：我的觀察主要在我做得比較多的機(jī)器人領(lǐng)域，特別是強(qiáng)化學(xué)習(xí)用在機(jī)器人里面的 Local Motion，就是步腿式機(jī)器人或叫足式機(jī)器人的步態(tài)優(yōu)化上面。自2019年ETH的機(jī)械狗使用強(qiáng)化學(xué)習(xí)方法成功爬山和越過(guò)障礙物以來(lái)，這一技術(shù)已經(jīng)衍生出許多創(chuàng)新，包括CMU和清華大學(xué)在機(jī)械狗跑酷方面的研究。后面催生出來(lái)的雙足機(jī)器人也通過(guò)強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行步態(tài)控制。我覺(jué)得這是強(qiáng)化學(xué)習(xí)在具身智能和機(jī)器人領(lǐng)域的一個(gè)巨大的應(yīng)用。這件事的重要性在于，強(qiáng)化學(xué)習(xí)基本上從研究上確定了SIM to Real 這件事，在步態(tài)控制這件這個(gè)方向上面是可以落地的，是可以真正用在現(xiàn)實(shí)中的商用的機(jī)器人上面。

從商業(yè)的角度，這樣一個(gè)技術(shù)創(chuàng)造了大量的工作崗位，現(xiàn)在那么多的機(jī)器人創(chuàng)業(yè)公司，幾乎每一個(gè)公司都有一個(gè)強(qiáng)化學(xué)習(xí)小組專門(mén)研究控制機(jī)器人的下肢。此外，我還注意到了lyft用強(qiáng)化學(xué)習(xí)去優(yōu)化出租車(chē)和網(wǎng)約車(chē)調(diào)度的情況，這可能也適用于國(guó)內(nèi)的滴滴或者美團(tuán)。剛才郝老師說(shuō)，強(qiáng)化學(xué)習(xí)作為一個(gè)非常強(qiáng)的優(yōu)化器，甚至有的時(shí)候叫Superhuman，超過(guò)人類(lèi)的優(yōu)化器，能夠在我們認(rèn)為已經(jīng)達(dá)到極限的地方進(jìn)一步優(yōu)化，為公司節(jié)省大量成本。盡管這種應(yīng)用還沒(méi)有廣泛鋪開(kāi)，但已經(jīng)展示了強(qiáng)化學(xué)習(xí)在未來(lái)發(fā)展中的潛力。

02、大模型與強(qiáng)化學(xué)習(xí)的結(jié)合：技術(shù)突破與應(yīng)用前景

安波：謝謝各位老師的精彩分享。從早期的推薦系統(tǒng)到最近的大模型結(jié)合強(qiáng)化學(xué)習(xí)（RLHF），可能是這幾年就說(shuō)強(qiáng)化學(xué)習(xí)跟大模型結(jié)合比較成功的一個(gè)地方。俞老師和我之前與滴滴有過(guò)主要基于強(qiáng)化學(xué)習(xí)的合作，這些應(yīng)用今天仍然非常有價(jià)值。郝老師提到了EDA，這可能與華為的一些項(xiàng)目落地有關(guān)。具身智能也是一個(gè)重要領(lǐng)域。接下來(lái)我們進(jìn)入今晚的核心議題：大模型與強(qiáng)化學(xué)習(xí)的融合。大模型基于大量的數(shù)據(jù)進(jìn)行訓(xùn)練，具備了通才的能力，許多人開(kāi)始利用大模型作為系統(tǒng)的"大腦"，完成以前無(wú)法實(shí)現(xiàn)的任務(wù)。在大模型與強(qiáng)化學(xué)習(xí)的結(jié)合方面，也有很多工作，例如解決強(qiáng)化學(xué)習(xí)中的一些問(wèn)題。我的第二個(gè)問(wèn)題是，請(qǐng)各位老師分享一下，在大模型加持下，強(qiáng)化學(xué)習(xí)解決了哪些問(wèn)題，以及近年來(lái)這個(gè)領(lǐng)域有哪些重大進(jìn)展，尤其是在過(guò)去一年多里，大模型的加入給強(qiáng)化學(xué)習(xí)帶來(lái)了哪些顯著成果。我們稍微改變一下順序，先請(qǐng)?jiān)S老師開(kāi)始分享。

許華哲：雖然我不是做大模型的，對(duì)大模型相對(duì)來(lái)說(shuō)了解不是那么深入，但我也聽(tīng)說(shuō)了很多強(qiáng)化學(xué)習(xí)與大模型結(jié)合帶來(lái)的好處，比如說(shuō)大家都知道最典型的 RLHF （強(qiáng)化學(xué)習(xí)中的人類(lèi)偏好反饋），通過(guò)讓人類(lèi)評(píng)估的偏好指標(biāo)來(lái)指導(dǎo)大模型的輸出，用強(qiáng)化學(xué)習(xí)使得它輸出的東西不僅正確、通暢的，而且還是人類(lèi)喜歡和期待看到的。

我們看到大模型有兩個(gè)特點(diǎn)：第一，它總是（基于自己的知識(shí)）很客觀積極地回答問(wèn)題；第二，它傾向于分點(diǎn)闡述，如1、2、3、4。這在一定程度上反映了RL的作用，即分點(diǎn)闡述的重要性。大家平時(shí)聽(tīng)別人匯報(bào)工作還是給別人匯報(bào)工作，都可以感受到分點(diǎn)是非常重要的，很顯然標(biāo)注員也是這樣的偏好，RL成功地找到了優(yōu)化方式，使大模型能夠像人類(lèi)一樣給出答案。此外，我認(rèn)為大模型跟強(qiáng)化學(xué)習(xí)還有更深層次的結(jié)合潛力。以我們自己的一個(gè)項(xiàng)目為例，RLHF不僅可以作為一個(gè)通用的優(yōu)化器，還可以 learning from others，還可以通過(guò)學(xué)習(xí)其他大模型來(lái)提升自身能力。這在某種程度上是一種知識(shí)蒸餾的過(guò)程，除了通過(guò)監(jiān)督學(xué)習(xí)進(jìn)行蒸餾外，還可以通過(guò)RL來(lái)蒸餾其他模型，從而補(bǔ)全和增強(qiáng)大模型的能力。

安波：我再稍微深入問(wèn)一下，許老師在 Minecraft （游戲：我的世界）上做了很多工作，能否分享一下大模型在解決Minecraft中的復(fù)雜問(wèn)題方面帶來(lái)的變化？

許華哲：大模型展現(xiàn)了優(yōu)秀的規(guī)劃能力，例如，在Minecraft中，當(dāng)你問(wèn)它如何獲取一個(gè)鉆石時(shí)，它能夠提供詳細(xì)的步驟。它通過(guò)閱讀網(wǎng)上的攻略，觀看網(wǎng)上的視頻和學(xué)習(xí)網(wǎng)上各種文字論述，它會(huì)告訴你你要先有一個(gè)鋤頭，然后挖掘一種特定的黑色礦石，再把這個(gè)礦石通過(guò)什么方式升級(jí)成鉆石等等。這里最常用的一種方法是，利用大模型做頂層的 Planner （規(guī)劃器），然后底層的執(zhí)行可能由強(qiáng)化學(xué)習(xí)或者其他的Controller（控制器）完成。另一種方式是大模型以VLA（視覺(jué)語(yǔ)言代理），直接輸出底層動(dòng)作來(lái)完成任務(wù)。這方面還在一個(gè)研究的初始階段，并沒(méi)有一個(gè)特別成熟的方案。介于這兩者之間的方法是，大模型輸出中間表征或中間狀態(tài)，這種中間狀態(tài)不是簡(jiǎn)單的指令，而是具體的指導(dǎo)，如在地圖上標(biāo)記一個(gè)框，指導(dǎo)玩家前往并挖掘。這種中間表征能有效解決 Long Horizon 長(zhǎng)距離的任務(wù)，這是傳統(tǒng)強(qiáng)化學(xué)習(xí)難以處理的問(wèn)題。

安波：謝謝許老師，郝老師請(qǐng)分享

郝建業(yè)：談到大模型對(duì)強(qiáng)化學(xué)習(xí)的幫助，我們可能先從以前做強(qiáng)化學(xué)習(xí)包括深度強(qiáng)化目前面臨的問(wèn)題來(lái)談起。傳統(tǒng)強(qiáng)化學(xué)習(xí)主要在特定環(huán)境下使用，挑戰(zhàn)在于如何快速地以Online 的方式學(xué)習(xí)到適應(yīng)當(dāng)前任務(wù)的策略。這通常需要事先對(duì)問(wèn)題進(jìn)行一個(gè)很好的任務(wù)定義，包括MDP（馬爾可夫決策過(guò)程）的構(gòu)建，包括狀態(tài)和獎(jiǎng)勵(lì)函數(shù)怎么定義。獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)對(duì)于訓(xùn)練結(jié)果至關(guān)重要，需要大量的人工的介入，這是以前強(qiáng)化學(xué)習(xí)的一大挑戰(zhàn)。大模型的出現(xiàn)為這些問(wèn)題提供了解決方案。

首先，大模型可以自動(dòng)化評(píng)估獎(jiǎng)勵(lì)函數(shù)，這是目前一些研究工作的重點(diǎn)。包括在具身領(lǐng)域，例如Eureka項(xiàng)目，利用大模型來(lái)自動(dòng)化地提供一個(gè)比較好的獎(jiǎng)勵(lì)函數(shù)，使強(qiáng)化算法在任意的環(huán)境下更加高效和自動(dòng)化地和環(huán)境交互，學(xué)習(xí)到好的策略。這是大模型在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方面提供的新手段。其次在表征方面，以前需要精細(xì)設(shè)計(jì)以提升策略的泛化性，包括去學(xué)習(xí)到一個(gè)比較好的表征來(lái)去提升策略的泛化性?；趖ransformer的大模型架構(gòu)，給我們提供了一個(gè)新的思路，我們可以借鑒語(yǔ)言大模型的思路，如果有大量不同決策任務(wù)的數(shù)據(jù)，可以訓(xùn)練出具有強(qiáng)泛化性的決策函數(shù)（policy/task extended value function）。這對(duì)于強(qiáng)化學(xué)習(xí)來(lái)說(shuō)，是一個(gè)新的思路。

如果我們有海量的不同決策場(chǎng)景的高質(zhì)量數(shù)據(jù)，那我們是否可以類(lèi)似于大模型一樣預(yù)訓(xùn)練一個(gè)從SFT，到RLHF、RLEF（RL From Environment Feedback）的全鏈條的、面向決策領(lǐng)的通用決策大模型？大模型對(duì)于強(qiáng)化學(xué)習(xí)的一個(gè)啟示是可能會(huì)顛覆我們現(xiàn)在對(duì)決策領(lǐng)域的認(rèn)知，可以借鑒語(yǔ)言大模型的思路去實(shí)現(xiàn)決策領(lǐng)域的通用大模型，這可能是未來(lái)探索的重要方向。最后一點(diǎn)剛剛其實(shí)俞老師也提到，大模型本身具備對(duì)世界的良好認(rèn)知，所以它可以幫助我們做一些比較復(fù)雜的上層任務(wù)的拆解，然后底層配合基于強(qiáng)化學(xué)習(xí)的控制，去實(shí)現(xiàn)一些更加復(fù)雜的物理開(kāi)放環(huán)境下的決策能力。

安波：請(qǐng)俞老師分享。

俞揚(yáng)：我們討論的問(wèn)題是語(yǔ)言模型對(duì)強(qiáng)化學(xué)習(xí)的幫助。首先我想闡明的一點(diǎn)是，強(qiáng)化學(xué)習(xí)它是一個(gè)任務(wù)，它不是一個(gè)具體的技術(shù)方法。我們要解決的是一類(lèi)多步?jīng)Q策的問(wèn)題，這一類(lèi)問(wèn)題我們把它做強(qiáng)化學(xué)習(xí)的問(wèn)題，也就是說(shuō)我們首先面對(duì)的是一個(gè)決策問(wèn)題，可能采用多種不同的決策的技術(shù)，如運(yùn)籌規(guī)劃。這種多步的和環(huán)境交互的這種決策可以歸到強(qiáng)化學(xué)習(xí)這一類(lèi)任務(wù)，它不是通過(guò)數(shù)學(xué)定義的一個(gè)式子，而是要和環(huán)境進(jìn)行交互從樣本中學(xué)習(xí)，它并不是說(shuō)某一種很具體的算法所代表的技術(shù)。強(qiáng)化學(xué)習(xí)面臨的挑戰(zhàn)在于，就是我們今天看到的所有強(qiáng)化學(xué)習(xí)成功的案例，都是非常特別的應(yīng)用案例，非常專注解決一個(gè)很具體的一個(gè)問(wèn)題，如下圍棋。一旦下圍棋的模型訓(xùn)練出來(lái)后，這個(gè)模型本身是不能去解決其他問(wèn)題，這顯示了強(qiáng)化學(xué)習(xí)的通用性不足。我們希望強(qiáng)化學(xué)習(xí)能解決多種問(wèn)題尤其是多步?jīng)Q策的問(wèn)題，主要面臨兩個(gè)方面的挑戰(zhàn)，首先，技術(shù)門(mén)檻較高，對(duì)強(qiáng)化學(xué)習(xí)概念和算法的理解要求高，可能比其他領(lǐng)域更高。其次，在應(yīng)用水平上也有更高要求。這些要求之所以高，是因?yàn)閺?qiáng)化學(xué)習(xí)處理的是決策問(wèn)題。如果觀察其他決策任務(wù)，如運(yùn)籌規(guī)劃，會(huì)發(fā)現(xiàn)應(yīng)用常局限于特定行業(yè)。

例如，我們?cè)O(shè)計(jì)了很多運(yùn)籌規(guī)劃的算法，但從企業(yè)層面，這種應(yīng)用經(jīng)常往往固定在某些領(lǐng)域，如特定行業(yè)的排班排產(chǎn)。這在一定程度上是由決策本身的性質(zhì)造成的，決策結(jié)果的要求通常非常高，與預(yù)測(cè)類(lèi)問(wèn)題不同，大模型這個(gè)語(yǔ)言輸出錯(cuò)了還可以再改一下，但是決策類(lèi)的問(wèn)題，質(zhì)量的輸出的要求會(huì)很高，因?yàn)闆Q策錯(cuò)誤的代價(jià)可能很大。因此在實(shí)際應(yīng)用中，需要結(jié)合領(lǐng)域知識(shí)和專業(yè)背景，達(dá)到一定水平才能有效應(yīng)用。我們發(fā)現(xiàn)，要滿足決策應(yīng)用，強(qiáng)化學(xué)習(xí)的通用性通常不足。大語(yǔ)言模型火了一年多、快要接近兩年，它帶來(lái)的幫助主要體現(xiàn)在其學(xué)習(xí)了大量數(shù)據(jù)，展現(xiàn)出較好的通用性。這種通用性有潛力彌補(bǔ)強(qiáng)化學(xué)習(xí)在通用性方面的不足。

這里的“潛質(zhì)”意味著大語(yǔ)言模型有可能幫助強(qiáng)化學(xué)習(xí)擴(kuò)展其通用性，盡管面臨的挑戰(zhàn)依然很大。首先我們看到語(yǔ)言模型本身正朝著智能體（agent）方向發(fā)展。在智能體領(lǐng)域，大多數(shù)任務(wù)都是決策類(lèi)的，因此也會(huì)面臨決策任務(wù)的挑戰(zhàn)。決策任務(wù)與語(yǔ)言生成任務(wù)是兩個(gè)完全不同的任務(wù)，只不過(guò)我們是希望語(yǔ)言模型能夠再往前走一步，去執(zhí)行決策任務(wù)。

目前，智能體的應(yīng)用還未達(dá)到理想的效果，因?yàn)樗婕暗經(jīng)Q策任務(wù)。一旦涉及到?jīng)Q策任務(wù)以后，由于它天然的這種對(duì)于決策準(zhǔn)確度的這個(gè)要求，對(duì)決策準(zhǔn)確度的要求自然提高。語(yǔ)言模型之所以受歡迎，一方面是因?yàn)樗趹?yīng)用上的要求較少，主要作為人的輸出輔助，將語(yǔ)言輸出給人，再由人進(jìn)行加工。這種輔助性行為在人不懂的地方表現(xiàn)得非常好。但當(dāng)我們真正需要解決決策問(wèn)題時(shí)，面臨的挑戰(zhàn)是人的專業(yè)性，通常需要專家來(lái)做出決策。智能體需要至少達(dá)到專家的水平，很多時(shí)候我們甚至要求它比專家做得更好，才能在實(shí)際中得到應(yīng)用。這種在任務(wù)性質(zhì)上存在的天然的差別，讓我對(duì)今天的語(yǔ)言大模型是不是真的能夠幫助強(qiáng)化學(xué)習(xí)拓展它的通用性持一定的懷疑態(tài)度。

例如，在Minecraft中表現(xiàn)出色的示例，我們?nèi)グl(fā)展一個(gè)技術(shù)，希望它有一定的智能的能力，那么我們一定是希望能夠控制他的這個(gè)能力，我們要知道這個(gè)能力從哪來(lái)，這個(gè)能力是怎么形成的？如果他不具有一個(gè)能力的話，我們?cè)趺茨軌蜃屗訌?qiáng)？如果他這個(gè)能力超出我們的這個(gè)希望他能做的這個(gè)范圍，以后我們?cè)趺慈タ刂扑?/p>

目前的語(yǔ)言模型似乎難以控制，換句話說(shuō)我們不清楚它究竟能解決什么問(wèn)題。以 Minecraft 為例，我們認(rèn)為它表現(xiàn)好可能是因?yàn)榫W(wǎng)絡(luò)上有相關(guān)攻略。能夠通過(guò)語(yǔ)言模型來(lái)引入知識(shí)。但如果面對(duì)沒(méi)有見(jiàn)過(guò)的問(wèn)題，沒(méi)有知識(shí)儲(chǔ)備的問(wèn)題，例如NP是否等于P，模型如何應(yīng)對(duì)？這個(gè)東西是沒(méi)有答案的，那么他怎么來(lái)做？我們?nèi)绻Ｍ哂凶鲞@做一個(gè)新的任務(wù)的知識(shí)的時(shí)候，我們?cè)撛趺唇M織一些語(yǔ)料給他？目前，這些問(wèn)題還沒(méi)有系統(tǒng)性的答案。這導(dǎo)致我們?cè)诮鉀Q問(wèn)題時(shí)缺乏一套方法論?，F(xiàn)在的方法似乎是，如果語(yǔ)言模型表現(xiàn)好，問(wèn)題就能解決；如果模型表現(xiàn)不佳，我們就束手無(wú)策。我認(rèn)為這不是一種科學(xué)的解決問(wèn)題的方式。我認(rèn)為目前的方案尚未形成一個(gè)完整的體系。

進(jìn)一步討論涉及到所謂的智能核心是什么。一些人可能認(rèn)為智能以語(yǔ)言模型為核心，但從生物學(xué)角度來(lái)看，只有人類(lèi)具備完整的語(yǔ)言能力，但并非只有人類(lèi)擁有智能；或者一些失去語(yǔ)言能力的人仍然具有智能。大腦結(jié)構(gòu)中，語(yǔ)言所占的部分非常小。所以語(yǔ)言模型它是不是智能的核心呢？當(dāng)然目前還沒(méi)有結(jié)論。我們也在探索強(qiáng)化學(xué)習(xí)，特別是決策相關(guān)的模型?？赡懿粌H僅是強(qiáng)化學(xué)習(xí)策略模型，還包括世界模型。我們還在探索其他類(lèi)型的模型，在探索這些以其他模型為核心的時(shí)候，我們希望強(qiáng)化學(xué)習(xí)的語(yǔ)言模型能幫助提取其通用背景知識(shí)能力。目前，我們正嘗試從大型語(yǔ)言模型，甚至多模態(tài)模型中提取知識(shí)，將其融入我們的策略模型或世界模型中，使我們的行動(dòng)模型真正具備更好的通用解決問(wèn)題的能力。

03、未來(lái)展望：潛在突破與當(dāng)前瓶頸

安波：謝謝俞老師，他進(jìn)一步提出了大語(yǔ)言模型是否通向通用人工智能道路等更開(kāi)放的問(wèn)題。從剛才各位老師的分析來(lái)看，大家都基本認(rèn)同大語(yǔ)言模型至少在某些任務(wù)上提升了強(qiáng)化學(xué)習(xí)的能力。例如，之前無(wú)法用強(qiáng)化學(xué)習(xí)或其他方法完成的任務(wù)，現(xiàn)在借助大語(yǔ)言模型廣泛的基礎(chǔ)知識(shí)，提高了效率，解決了之前無(wú)法完成的工作，等等。當(dāng)然，還有很多基礎(chǔ)問(wèn)題，比如大語(yǔ)言模型是否是實(shí)現(xiàn)智能的正確道路，以及強(qiáng)化學(xué)習(xí)的方向，一直存在爭(zhēng)議。有人質(zhì)疑語(yǔ)言模型的正確性，對(duì)強(qiáng)化學(xué)習(xí)也有不同看法。盡管存在爭(zhēng)議，但大模型的引入無(wú)疑解決了之前無(wú)法解決的問(wèn)題。我個(gè)人認(rèn)為，重要的是解決問(wèn)題，而不是爭(zhēng)論哪個(gè)是最終解決方案。我們應(yīng)該避免只有批評(píng)沒(méi)有建設(shè)性建議的情況。這也是Yann Lecun攻擊Gary Marcus的時(shí)候的觀點(diǎn)。

接下來(lái)，我們按計(jì)劃討論第三個(gè)問(wèn)題。

假設(shè)大語(yǔ)言模型或基礎(chǔ)模型對(duì)未來(lái)的強(qiáng)化學(xué)習(xí)有幫助，您認(rèn)為未來(lái)一到兩年可能在哪些領(lǐng)域出現(xiàn)突破性進(jìn)展？目前的瓶頸在哪里，我們能做些什么實(shí)現(xiàn)巨大突破？關(guān)于大模型與強(qiáng)化學(xué)習(xí)結(jié)合前景的展望，哪些問(wèn)題值得大家研究？我們還是按照剛才的順序，請(qǐng)?jiān)S老師先開(kāi)始。

許華哲：關(guān)于未來(lái)的展望，我覺(jué)得剛剛郝老師聊到的一個(gè)方向還遠(yuǎn)遠(yuǎn)沒(méi)有做透，即如何利用大模型提供監(jiān)督信號(hào)或引導(dǎo)來(lái)輔助強(qiáng)化學(xué)習(xí)。我們?cè)趯?shí)踐中遇到許多問(wèn)題，比如大模型反饋速度慢，最快可能只有三赫茲，而強(qiáng)化學(xué)習(xí)通常需要密集的獎(jiǎng)勵(lì)信號(hào)，可能我需要這個(gè)每一步都有一個(gè)Reward，在這種情況下，如何讓大模型提供足夠的反饋以支持強(qiáng)化學(xué)習(xí)，實(shí)現(xiàn)無(wú)需人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的訓(xùn)練？因?yàn)閺?qiáng)化學(xué)習(xí)被這個(gè)批評(píng)的一個(gè)點(diǎn)就是人工設(shè)計(jì)的部分很多，我要抓一個(gè)小物塊，那我也需要把距離，然后把這種各種懲罰都寫(xiě)到獎(jiǎng)勵(lì)函數(shù)里，那這套東西能不能真的完全的高頻的靠大模型給出？這是一個(gè)非常有意思的課題。另外因?yàn)槲乙沧鲆恍└鷻C(jī)器人相關(guān)的工作，我認(rèn)為使用強(qiáng)化學(xué)習(xí)微調(diào)大模型，使其能夠執(zhí)行動(dòng)作，也是一個(gè)有趣的點(diǎn)。

目前，視覺(jué)語(yǔ)言代理（VLA）是一個(gè)熱門(mén)話題，它能夠?qū)D像和語(yǔ)言輸入并直接輸出動(dòng)作。VLA 展示出的泛化能力特別好，遇到新的具身，它可能只需要少量數(shù)據(jù)甚至零樣本就能遷移過(guò)去。但我們發(fā)現(xiàn)VLA在簡(jiǎn)單任務(wù)上表現(xiàn)良好，而在更復(fù)雜的任務(wù)上往往失敗。VLA蘊(yùn)含大量知識(shí)，能否用強(qiáng)化學(xué)習(xí)像調(diào)整Lora一樣調(diào)整VLA，使其自動(dòng)輸出正確的動(dòng)作，將大模型作為強(qiáng)化學(xué)習(xí)的一個(gè)基礎(chǔ)，這也是我認(rèn)為很有意思的一個(gè)方向。在決策方面，我們之前也嘗試用大模型與強(qiáng)化學(xué)習(xí)聯(lián)合解決一些有趣的問(wèn)題，如旅行商問(wèn)題或在三維空間拼圖，這些都是NP-hard問(wèn)題。單靠 RL 可能復(fù)雜度非常高，然后單靠大模型可能只能給出一個(gè)近似正確或者直覺(jué)的一個(gè)解，我們嘗試讓大模型提供直覺(jué)，然后讓強(qiáng)化學(xué)習(xí)在直覺(jué)附近進(jìn)行優(yōu)化，我們已經(jīng)做了一些初步的嘗試。

安波：謝謝許老師，許老師剛剛更多的講的是其他的 RL 與大模型結(jié)合，用 RL 來(lái)Finetune大模型，或者大模型來(lái)幫助 RL 訓(xùn)練，比如我們之前看到幾個(gè)月前伯克利的Digit RL 之類(lèi)的工作，應(yīng)該是屬于這個(gè)思路。下一位是郝老師。

郝建業(yè)：首要任務(wù)是利用強(qiáng)化學(xué)習(xí)（RL）提升大模型的技術(shù)能力。許老師剛才也提到，根據(jù)我們自己的經(jīng)驗(yàn)和業(yè)界公開(kāi)信息來(lái)看，在整個(gè)后訓(xùn)練階段，除了監(jiān)督式微調(diào)（SFT）之外，RLHF（強(qiáng)化學(xué)習(xí)中的人類(lèi)偏好反饋）可以發(fā)揮更關(guān)鍵的作用。特別是，RLHF可以與SFT深度融合，通過(guò)多輪迭代，在后訓(xùn)練階段全方位提升大模型的基礎(chǔ)能力。我們認(rèn)為，RL技術(shù)在這方面可以發(fā)揮越來(lái)越重要的作用，具有SFT不可替代的優(yōu)勢(shì)。

另外，大模型與RL的結(jié)合面向未來(lái)廣義智能體（Agent）的應(yīng)用場(chǎng)景，無(wú)論是虛擬的智能體，如App智能體、Web智能體，包括數(shù)據(jù)科學(xué)智能體（Data Science Agent），甚至未來(lái)可能出現(xiàn)的操作系統(tǒng)級(jí)智能體，幫助人類(lèi)操控APP，實(shí)現(xiàn)與虛擬世界的復(fù)雜交互需求。還有面向具身場(chǎng)景的，如何讓機(jī)器人在與物理世界的交互中持續(xù)自我演進(jìn)，RL在這里可以發(fā)揮非常關(guān)鍵的作用。如何讓智能體具有持續(xù)自我演進(jìn)的能力，RL技術(shù)在未來(lái)廣義的智能體技術(shù)演進(jìn)中將發(fā)揮非常關(guān)鍵的作用。

安波：俞老師怎么看？

俞揚(yáng)：關(guān)于強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型結(jié)合的未來(lái)和可能的突破，我們目前觀察到無(wú)論是語(yǔ)言模型還是多模態(tài)模型，它們通常缺少一個(gè)關(guān)鍵元素，即行動(dòng)（action）。我們的決策并不包含在輸入中，因?yàn)槲淖志褪俏淖?，圖像和文字經(jīng)過(guò)編碼后混合在一起。如果行動(dòng)的輸入被納入模型，我們更愿意稱其為世界模型，即通過(guò)每一步的不同決策引導(dǎo)模型朝不同方向發(fā)展。其實(shí)世界模型是一個(gè)老話題，但今年Sora的出現(xiàn)，因?yàn)樗苑Q為世界模擬器（World Simulator），使得世界模型這個(gè)詞變得非常熱門(mén)。

然而，我們還沒(méi)有看到一個(gè)完整的技術(shù)路線來(lái)構(gòu)建世界模型，因?yàn)樗c現(xiàn)有的語(yǔ)言模型和多模態(tài)模型不同，當(dāng)我們的決策也要輸入到模型中時(shí)，帶來(lái)了一個(gè)非常大的變量。決策是一個(gè)自由變量，可以任意變化，我們的模型需要能夠預(yù)知任意變化的決策會(huì)帶來(lái)什么樣的未來(lái)，這是一個(gè)極具挑戰(zhàn)的任務(wù)。Yann LeCun也一直強(qiáng)調(diào)這一點(diǎn)，他從ChatGPT剛出現(xiàn)時(shí)就開(kāi)始批評(píng)它無(wú)法做決策，因?yàn)楝F(xiàn)有的預(yù)測(cè)器結(jié)構(gòu)無(wú)法構(gòu)建事件模型，因?yàn)樗鼪](méi)有行動(dòng)，沒(méi)有決策。如果我們想象我們能夠構(gòu)建一個(gè)模型，對(duì)任何給定的決策都能準(zhǔn)確預(yù)知未來(lái)，那么我們所謂的全L5級(jí)全自動(dòng)自動(dòng)駕駛可能就能實(shí)現(xiàn)，能夠執(zhí)行各種服務(wù)任務(wù)的服務(wù)機(jī)器人、人形機(jī)器人也可能成真。所以至少我個(gè)人覺(jué)得，世界模型是我們追求的東西，在技術(shù)體系中是一個(gè)非常缺失的環(huán)節(jié)。技術(shù)上，如何將決策加入模型，對(duì)各種不同決策，甚至是數(shù)據(jù)中未見(jiàn)過(guò)的決策，能夠給出準(zhǔn)確的響應(yīng)，是一個(gè)值得我們深入研究的問(wèn)題。

在前沿研究中，專門(mén)解決行動(dòng)輸入問(wèn)題的研究并不多。目前的嘗試與大語(yǔ)言模型技術(shù)類(lèi)似，主要是針對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。DeepMind在嘗試構(gòu)建世界模型時(shí)發(fā)現(xiàn)，僅憑高質(zhì)量的數(shù)據(jù)訓(xùn)練是不夠的，因?yàn)閿?shù)據(jù)只能展示一種決策，或者是相似的一些決策能夠帶來(lái)什么樣的結(jié)果。對(duì)于不同的決策，尤其是數(shù)據(jù)中未出現(xiàn)的決策，其結(jié)果無(wú)從得知，這就造成了決策維度的數(shù)據(jù)缺乏。而這種數(shù)據(jù)的缺乏，用當(dāng)前構(gòu)建和收集大數(shù)據(jù)的技術(shù)手段可能無(wú)法解決。以下圍棋為例，圍棋每一步的走法都是一個(gè)決策，如果都要收集，光圍棋這一件事情，那么產(chǎn)生的數(shù)據(jù)量將遠(yuǎn)超現(xiàn)有數(shù)據(jù)。

因此，在缺乏數(shù)據(jù)的情況下，如何提高模型的泛化能力，使其能夠預(yù)測(cè)不同決策的后果，是一個(gè)需要進(jìn)一步研究的重要方向，也是我們正在探索的方向。另外，Yann LeCun最近討論了強(qiáng)化學(xué)習(xí)與MPC（模型預(yù)測(cè)控制）的對(duì)比。他所指的強(qiáng)化學(xué)習(xí)是非常狹義的，即只能通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)。而他所說(shuō)的MPC，廣義上講，就是世界模型。實(shí)際上，我們所做的大部分強(qiáng)化學(xué)習(xí)都可以歸為MPC類(lèi)別。因此，他們?cè)赥witter上的爭(zhēng)論，關(guān)于經(jīng)典強(qiáng)化學(xué)習(xí)是否必須通過(guò)試錯(cuò)來(lái)學(xué)習(xí)，對(duì)于我們這些強(qiáng)化學(xué)習(xí)研究者來(lái)說(shuō)，并不是一個(gè)需要爭(zhēng)論的問(wèn)題。

04、探索強(qiáng)化學(xué)習(xí)的邊界：開(kāi)放性問(wèn)題與挑戰(zhàn)

安波：感謝各位老師的深入討論。俞老師最后提到了從語(yǔ)言模態(tài)出發(fā)是否能解決所有問(wèn)題，以及數(shù)據(jù)空間的問(wèn)題。我個(gè)人認(rèn)為，我們需要世界模型，但由于數(shù)據(jù)缺乏，我們無(wú)法獲得。但強(qiáng)化學(xué)習(xí)的探索能力，我們可以與環(huán)境交互,基于當(dāng)前的感知，似乎是解決數(shù)據(jù)缺乏問(wèn)題的一種方式。我們將進(jìn)入最后一個(gè)更開(kāi)放的話題，我希望我們可以更開(kāi)放地展望強(qiáng)化學(xué)習(xí)的未來(lái)前景，大家可以更自由地發(fā)表意見(jiàn)。

比如可以質(zhì)疑強(qiáng)化學(xué)習(xí)是否是正確的范式。如果是，未來(lái)將面臨哪些挑戰(zhàn)？有哪些未解決的問(wèn)題？哪些方向值得我們關(guān)注？或者存在哪些瓶頸？我們還是從許老師開(kāi)始。

許華哲：首先我一直認(rèn)為，雖然強(qiáng)化學(xué)習(xí)的方法可能不一定完全正確，但問(wèn)題定義本身無(wú)疑是正確的，我們正在解決的問(wèn)題肯定是在正確的軌道上。我目前最關(guān)心的是真實(shí)世界的強(qiáng)化學(xué)習(xí)，即我們是否能找到一系列機(jī)器人任務(wù)，使其能在真實(shí)世界中進(jìn)行交互，就像我們學(xué)習(xí)打網(wǎng)球或者做飯一樣，無(wú)論是通過(guò)給 Demonstration 的方式，還是從模擬器里面去學(xué)的方式，但最終在真實(shí)世界部署后還能繼續(xù)提升自身。這當(dāng)然是許多研究者和觀眾朋友所關(guān)注的，他們可能認(rèn)為強(qiáng)化學(xué)習(xí)在真實(shí)世界中的樣本效率太低，幾乎是天方夜譚。但事實(shí)上，我們?nèi)栽谂μ剿鬟@一領(lǐng)域。

其次，我非常感興趣的是，能否通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化出一些更有趣的，類(lèi)似于生物進(jìn)化的效果。大模型在某種意義上是直接跳過(guò)了所有的發(fā)展規(guī)律，將人類(lèi)的數(shù)據(jù)堆砌給機(jī)器，讓機(jī)器去擬合這些數(shù)據(jù)。而強(qiáng)化學(xué)習(xí)則更像是允許機(jī)器去試錯(cuò)和發(fā)展，在這個(gè)過(guò)程中，它可能會(huì)發(fā)展出一套與傳統(tǒng)大模型學(xué)到的不同的、更適合機(jī)器的智能。我覺(jué)得這是一個(gè)非常有趣的方向。例如，如果我們想讓機(jī)器人跑得更快，如果我們只是讓它學(xué)習(xí)人類(lèi)數(shù)據(jù)，它可能最多只能達(dá)到博爾特的水平。但如果我們讓它通過(guò)強(qiáng)化學(xué)習(xí)自行探索，它可能發(fā)展出某種神奇的跑法，跑得比人類(lèi)更快。如果我們有一個(gè)足夠精確的模擬器來(lái)模擬世界的一部分，那么它很可能可以衍生出一套屬于機(jī)器自己的智能，這也是一個(gè)值得探索的有趣領(lǐng)域。

安波：謝謝許老師，有請(qǐng)郝老師。

郝建業(yè)：如果我們單獨(dú)看待強(qiáng)化學(xué)習(xí)，它其實(shí)就是一種比較通用的優(yōu)化工具或技術(shù)。但我們希望通過(guò)不同優(yōu)化手段的組合，針對(duì)特定領(lǐng)域的實(shí)際問(wèn)題，形成一套通用的優(yōu)化解決方案，這是我們的最終目標(biāo)。所以我覺(jué)得無(wú)論是強(qiáng)化學(xué)習(xí)，還是傳統(tǒng)演化學(xué)習(xí)、貝葉斯優(yōu)化等其他優(yōu)化方法，它們之間具有很強(qiáng)的互補(bǔ)性。我們可以將這些方法有機(jī)組合，實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)，幫助解決復(fù)雜優(yōu)化問(wèn)題，無(wú)論是生成高質(zhì)量數(shù)據(jù)還是提供在線快速自我學(xué)習(xí)和演進(jìn)的能力，都能發(fā)揮非常關(guān)鍵的作用。

因此，大模型和強(qiáng)化學(xué)習(xí)是互補(bǔ)的。大模型提供了更開(kāi)闊的思路，我們借助高效的優(yōu)化方法組合，針對(duì)特定問(wèn)題實(shí)現(xiàn)解決復(fù)雜通用優(yōu)化問(wèn)題的能力。這個(gè)領(lǐng)域未來(lái)的發(fā)展空間非常大。另外，關(guān)于強(qiáng)化學(xué)習(xí)效率低的問(wèn)題，我們可以類(lèi)比人的成長(zhǎng)過(guò)程。嬰兒通過(guò)與周?chē)说慕涣鬟M(jìn)行預(yù)訓(xùn)練，類(lèi)似于大語(yǔ)言模型的預(yù)訓(xùn)練，以及通過(guò)觀察周?chē)挛镞M(jìn)行多模態(tài)預(yù)訓(xùn)練。更重要的是，嬰兒從出生開(kāi)始就通過(guò)手和腳去認(rèn)識(shí)世界，如果大家有小孩就會(huì)注意到，他們喜歡抓各種物體，撕各種東西，通過(guò)自我學(xué)習(xí)的反饋，經(jīng)過(guò)多年的學(xué)習(xí)，才形成了成人非常靈活的抓取能力。成人之后，進(jìn)行復(fù)雜精細(xì)的操作也需要持續(xù)的交互學(xué)習(xí)。和人類(lèi)相比，目前算法的樣本效率是比較低的，我們可以利用強(qiáng)大的算力和仿真技術(shù)來(lái)彌補(bǔ)這一問(wèn)題。通過(guò)類(lèi)似于分身的概念，智能體可以并行地與虛擬環(huán)境交互，讓智能體快速?gòu)?fù)制經(jīng)驗(yàn)，并通過(guò)強(qiáng)化學(xué)習(xí)手段快速提升能力。隨著大模型技術(shù)、算力和仿真技術(shù)的進(jìn)步，仿真的真實(shí)度越來(lái)越高，未來(lái)有望實(shí)現(xiàn)面向特定領(lǐng)域的通用決策模型。

安波：感謝郝老師的分享。郝老師探討了多種技術(shù)的融合，克服了訓(xùn)練效率等問(wèn)題，您能否分享一些關(guān)鍵領(lǐng)域，以及如何利用強(qiáng)化學(xué)習(xí)作為核心技術(shù)？能否透露一兩個(gè)方向，比如現(xiàn)在正在探索的一些問(wèn)題？

郝建業(yè)：舉個(gè)例子，我們做 EDA 的一些優(yōu)化問(wèn)題和一些智能體的場(chǎng)景，包括具身的場(chǎng)景，現(xiàn)在其實(shí)最重要的或者對(duì)性能影響最大因素是高質(zhì)量數(shù)據(jù)。高質(zhì)量數(shù)據(jù)的來(lái)源有幾個(gè)方面：一是歷史上人類(lèi)或?qū)＜依鄯e的大量數(shù)據(jù)；二是通過(guò)仿真合成數(shù)據(jù)。有了數(shù)據(jù)后，通過(guò)離線方式訓(xùn)練出具有一定泛化能力的預(yù)訓(xùn)練模型。然后通過(guò)在線交互接觸更多的corner case，實(shí)現(xiàn)持續(xù)的自我演進(jìn)。無(wú)論是自動(dòng)駕駛、企業(yè)工業(yè)軟件優(yōu)化，還是智能體，這都是一套具有通用性的優(yōu)化范式，可以沿著這個(gè)方向不斷推進(jìn)，提升能力邊界。

安波：謝謝郝老師，談到這個(gè)數(shù)據(jù)的問(wèn)題，也請(qǐng)俞老師展望一下未來(lái)的挑戰(zhàn)或者前景。

俞揚(yáng)：我認(rèn)為強(qiáng)化學(xué)習(xí)本質(zhì)上是一個(gè)解決問(wèn)題的工具，包括強(qiáng)化學(xué)習(xí)、運(yùn)籌規(guī)劃等技術(shù)已經(jīng)發(fā)展了很長(zhǎng)時(shí)間，并且已經(jīng)相當(dāng)成熟。成熟到何種程度呢？如果我們面對(duì)的是一個(gè)非常明確的封閉問(wèn)題，例如中等規(guī)模的游戲，那十有八九人類(lèi)是打不過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練出的智能體的。我們面臨的挑戰(zhàn)是開(kāi)放世界的挑戰(zhàn)，即我們面對(duì)的是一個(gè)未知的世界，這個(gè)世界中有太多不確定性。在這樣的環(huán)境下，我認(rèn)為核心挑戰(zhàn)在于如何定義我們?cè)陂_(kāi)放世界中要完成的任務(wù)。

這個(gè)定義不能由人來(lái)完成，因?yàn)橐坏┒x，它就變成一個(gè)封閉的任務(wù)。那么我們就可以使用現(xiàn)有的求解器，包括強(qiáng)化學(xué)習(xí)和其他技術(shù)來(lái)求解。所以，我認(rèn)為關(guān)鍵在于如何定義問(wèn)題。未來(lái)在自動(dòng)駕駛、具身智能等領(lǐng)域，我們面對(duì)任務(wù)后能否迅速將當(dāng)前環(huán)境和任務(wù)定義為一個(gè)封閉場(chǎng)景，然后用現(xiàn)有技術(shù)解決，這是我們正在努力的方向。前面提到的世界模型，就是希望它能夠做到這一點(diǎn)。至于數(shù)據(jù)，我始終認(rèn)為數(shù)據(jù)越多越好，在同等技術(shù)條件下，我們能夠?qū)崿F(xiàn)的效果肯定是越好的。但從智能的根本上講，智能不應(yīng)該僅僅通過(guò)大量數(shù)據(jù)堆砌形成，我們應(yīng)該探索如何提升算法和模型的“智商”，而不僅僅是大量喂食數(shù)據(jù)。當(dāng)然，這是一個(gè)實(shí)現(xiàn)途徑，在同等智商條件下，題目越多越好。但能否用少量數(shù)據(jù)就能獲得高智商的智能體，就像人類(lèi)一樣，雖然一生中接觸的數(shù)據(jù)有限，但都能具有相當(dāng)高的智力，這是我們希望長(zhǎng)期能夠接近的目標(biāo)。

安波：俞老師今天晚上多次提到世界模型，我想問(wèn)一下你們最近在這方面有什么新進(jìn)展嗎？比如在特定領(lǐng)域，你們正在開(kāi)發(fā)的模擬器等。

俞揚(yáng)：我們目前在南棲仙策主要聚焦于工業(yè)環(huán)境。我們開(kāi)發(fā)了一些技術(shù)，能夠從較少的數(shù)據(jù)中還原世界模型。一旦世界模型被還原，決策就不再是問(wèn)題。因?yàn)樗恍枰c真實(shí)場(chǎng)景交互，不需要試錯(cuò)。我之前提到的與美團(tuán)合作的項(xiàng)目，能夠在全國(guó)推廣，也是基于世界模型的思路。因?yàn)樵跊Q策維度上，我們面對(duì)的數(shù)據(jù)永遠(yuǎn)是不足的。一旦能夠構(gòu)建出優(yōu)秀的世界模型，就能幫助我們找到更好的決策路徑。我認(rèn)為這條路線非常重要。盡管現(xiàn)在大家的注意力都被大模型技術(shù)所吸引，都在關(guān)注如何擴(kuò)展（scaling），但我們還是希望模型能變得更智能，不必消耗太多資源就能解決問(wèn)題。

安波：感謝俞老師的分享。今晚的討論讓我們觸及了許多核心問(wèn)題，包括語(yǔ)言模型的邊界、強(qiáng)化學(xué)習(xí)的邊界，以及究竟哪條路線是正確的。這些問(wèn)題沒(méi)有完全探討透徹，現(xiàn)在可能現(xiàn)在很難得到明確的答案，但有一點(diǎn)可以肯定，隨著技術(shù)的積累和進(jìn)步，我們正逐步解決一些過(guò)去無(wú)法解決的問(wèn)題，我們也欣喜地看到，在工業(yè)和許多場(chǎng)景中，這些技術(shù)已經(jīng)被證明是可行和有用的，越來(lái)越多的人認(rèn)識(shí)到這些技術(shù)的潛力，并且正在積極參與其中。

有觀眾提出了一個(gè)問(wèn)題，是否可以通過(guò)多智能體強(qiáng)化學(xué)習(xí)與大模型的結(jié)合來(lái)提升大語(yǔ)言模型處理復(fù)雜決策任務(wù)的能力，如果可以，可能從哪些角度進(jìn)行結(jié)合？目前看來(lái)，這種結(jié)合可能主要還是與單個(gè)智能體強(qiáng)化學(xué)習(xí)相關(guān)。前幾年，多智能體強(qiáng)化學(xué)習(xí)是一個(gè)非常熱門(mén)的領(lǐng)域，但自從大語(yǔ)言模型興起后，這一領(lǐng)域的熱度明顯下降，大家的注意力轉(zhuǎn)移到了大語(yǔ)言模型上。目前，我們還沒(méi)有看到多智能體強(qiáng)化學(xué)習(xí)與大模型的結(jié)合的成功例子。就像許老師剛才提到的，RL與大模型的結(jié)合還有很長(zhǎng)的路要走，目前更多的是利用大模型的規(guī)劃能力和知識(shí)。至于用RL微調(diào)或訓(xùn)練大模型，這方面的工作似乎也不是特別多。不知道各位老師是否有補(bǔ)充，或者是否有碰到這樣的應(yīng)用案例？郝老師，您是否有想要分享的經(jīng)驗(yàn)？

郝建業(yè)：我想補(bǔ)充一點(diǎn)，過(guò)去半年到一年，我們安排了一些學(xué)生專門(mén)研究多智能體建模技術(shù)是否能夠提升大模型的技術(shù)能力，比如推理能力。我們看到一些比較火的技術(shù)，如XOT，都是基于樹(shù)或圖搜索的方法，探索多智能體方法是否能在其中發(fā)揮獨(dú)特作用。目前我們的階段性發(fā)現(xiàn)是，這種作用可能并不大。無(wú)論是通過(guò)談判、促進(jìn)或賦予不同角色的方式，嘗試通過(guò)組裝來(lái)提升大模型的通用能力，雖然確實(shí)有一些增益，但并不明顯，可能還會(huì)帶來(lái)額外的計(jì)算成本。我們也有博士生在面向特定領(lǐng)域的特定問(wèn)題上進(jìn)行研究，比如基于現(xiàn)有的大模型能力，是否可以通過(guò)多智能體建模方法，賦予不同角色處理復(fù)雜問(wèn)題，從各自角色角度進(jìn)行推理，然后將推理結(jié)果進(jìn)行聚合分析，希望能形成一個(gè)更好的結(jié)論。這樣的思路目前看會(huì)有一些增益，但增益并不顯著。這肯定不是一個(gè)最終結(jié)論，我們還在持續(xù)探索更好的多智能體建模方法與大模型結(jié)合的方式，以提升大模型的技術(shù)能力或在特定領(lǐng)域的表現(xiàn)。這仍是一個(gè)值得持續(xù)探索的方向。

安波：感謝各位今晚的參與。隨著今晚的在線網(wǎng)絡(luò)研討會(huì)接近尾聲，我有一種感覺(jué)，我們還有很多話題沒(méi)有深入探討。這可能因?yàn)闀r(shí)間的限制，但隨著技術(shù)的發(fā)展和更多的實(shí)際應(yīng)用，我們會(huì)對(duì)這些問(wèn)題有更清晰的認(rèn)識(shí)。

，我想插播一則消息。對(duì)于我們今天晚上未能充分討論的話題，我們誠(chéng)摯邀請(qǐng)大家在今年12月來(lái)新加坡繼續(xù)我們的探討。12月，我們將在新加坡舉辦下一屆分布式人工智能會(huì)議，這將是一個(gè)高水平的交流平臺(tái)。我們的Keynote Speaker包括著名的Richard Sutton，他很少出國(guó)，但今年將會(huì)親臨新加坡。此外，我們還有Sergey Levine等其他杰出的演講者，他是強(qiáng)化學(xué)習(xí)領(lǐng)域非常活躍的研究者。雖然他沒(méi)有時(shí)間來(lái)新加坡，但他會(huì)進(jìn)行線上演講分享他的見(jiàn)解。我們還邀請(qǐng)了顏水成老師等其他著名科學(xué)家，并將舉辦AI agent day。今晚在座的三位老師屆時(shí)也將來(lái)新加坡來(lái)與大家深入交流。今晚的交流就到這里，我相信未來(lái)我們還有更多機(jī)會(huì)深入討論這些話題。有一點(diǎn)非常明確，那就是強(qiáng)化學(xué)習(xí)無(wú)疑是實(shí)現(xiàn)未來(lái)人工智能的重要途徑之一。我們不討論它是否唯一，但它絕對(duì)是一個(gè)重要方向，越來(lái)越多的人正在參與其中。在過(guò)去幾年人工智能取得的重要進(jìn)展中，包括最近的RHLF，我們都看到了強(qiáng)化學(xué)習(xí)的貢獻(xiàn)。

今晚的網(wǎng)絡(luò)分享會(huì)到此結(jié)束。期待未來(lái)有機(jī)會(huì)再次與各位交流。感謝各位的參與，也感謝三位老師的分享，以及AI科技評(píng)論和雷峰網(wǎng)的組織和支持。謝謝大家。