加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
logo

有事離開?不用擔(dān)心

掃一掃繼續(xù)用手機(jī)看

微信掃碼
不再提醒
  • 點(diǎn)贊
  • 評(píng)論
  • 分享
相關(guān)視訊
  • 視訊介紹
    • 聞聲起舞,“樂舞合成”是怎樣實(shí)現(xiàn)的?
    • 持續(xù)領(lǐng)跑,搜狗與分身技術(shù)的不解之緣
    • 人機(jī)交互的未來,與搜狗的技術(shù)遠(yuǎn)景
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

搜狗與清華突破AI音樂起舞,人機(jī)交互的未來如何?

2020/08/24
162
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

聲音與 AI 行為搭配在一起,會(huì)發(fā)生怎樣的化學(xué)反應(yīng)呢?這一話題,正在成為國(guó)內(nèi)外 AI 研究比較熱衷的新方向。

比如卡內(nèi)基·梅隆大學(xué)和 CMU 機(jī)器人研究所,就在研究聲音和機(jī)器人動(dòng)作之間的相互作用;國(guó)內(nèi)則從數(shù)字人入手,搜狗分身技術(shù)團(tuán)隊(duì)聯(lián)合清華大學(xué)天工智能計(jì)算研究院賈珈老師團(tuán)隊(duì),率先展開了音頻驅(qū)動(dòng)身體動(dòng)作的研究。

近日二者共同發(fā)表的數(shù)字人技術(shù)論文《ChoreoNet: 基于舞蹈動(dòng)作單元的音樂 - 舞蹈合成框架》,就被 2020 國(guó)際頂級(jí)盛會(huì) ACM Multimedia 錄用為長(zhǎng)文。

作為計(jì)算機(jī)領(lǐng)域諾貝爾獎(jiǎng)——圖靈獎(jiǎng)的評(píng)選機(jī)構(gòu),ACM(國(guó)際計(jì)算機(jī)學(xué)會(huì) Association for Computing Machinery)的業(yè)界地位不用贅述,旗下的 ACM Multimedia 也被認(rèn)為是多媒體技術(shù)領(lǐng)域奧運(yùn)級(jí)別的頂級(jí)盛會(huì),論文接受率很低。

那么,能得到頂會(huì)的認(rèn)可,這一新技術(shù)究竟有哪些開創(chuàng)性呢?

聞聲起舞,“樂舞合成”是怎樣實(shí)現(xiàn)的?

讓數(shù)字人根據(jù)文本語(yǔ)義做出相對(duì)應(yīng)的面部表情及肢體動(dòng)作,目前已經(jīng)有不少成熟的應(yīng)用,比如 AI 合成主播。如果再能夠跟隨音頻做出同步、自然的肢體反應(yīng),無疑會(huì)在多種場(chǎng)景中產(chǎn)生奇妙的化學(xué)反應(yīng)。

不過,隨聲而動(dòng)這件事的難度在于,背后需要解決的技術(shù)問題不少,比如:

傳統(tǒng)音樂與舞蹈合成的方式是基線法,通過人體骨骼關(guān)鍵點(diǎn)的映射,但許多關(guān)鍵點(diǎn)難以捕捉和預(yù)測(cè),就會(huì)出現(xiàn)高度冗余和噪聲,導(dǎo)致合成結(jié)果的不穩(wěn)定、動(dòng)作節(jié)銜接不像真人。

后來,雅爾塔等學(xué)者也提出要通過 AI 的弱監(jiān)督學(xué)習(xí)來解決上述問題,但由于缺乏對(duì)人類舞蹈經(jīng)驗(yàn)知識(shí)的了解,依然會(huì)出現(xiàn)合成不夠自然、情感表達(dá)不夠流暢的問題。

另外,由于音樂片段比較長(zhǎng),背后伴隨著成千上萬的動(dòng)作畫面,需要智能體記住并映射這種超長(zhǎng)的序列也是一大挑戰(zhàn)。

搜狗及清華天工院研究團(tuán)隊(duì)所做的突破,就是將人類專業(yè)知識(shí)融入算法,提出了一個(gè)模仿人類舞蹈編排的程序 ChoreoNet,來根據(jù)音樂生成動(dòng)態(tài)優(yōu)美連貫、非線性高度擬真的舞蹈。

簡(jiǎn)單來說,ChoreoNet 是將專業(yè)舞者的各個(gè)動(dòng)作單元與音樂旋律捕捉并數(shù)據(jù)化,然后讓 AI 在其中尋找規(guī)律,知道在怎樣的音樂節(jié)拍、旋律風(fēng)格中應(yīng)該做出怎樣的舞蹈動(dòng)作,進(jìn)而形成連貫的動(dòng)作軌跡。

其中,研究人員共突破了兩個(gè)環(huán)節(jié):

1. 舞蹈知識(shí)化。用動(dòng)作捕捉采集專業(yè)的人類舞者是如何根據(jù)音樂的節(jié)奏、旋律來編排動(dòng)作的。研究人員收集了 4 種不同類型(恰恰、華爾茲、倫巴和探戈)的舞蹈數(shù)據(jù),數(shù)個(gè)音樂節(jié)拍裁剪出一個(gè)編舞動(dòng)作單元(CAUs) 相對(duì)應(yīng)的片段,形成一個(gè)動(dòng)作控制單元(CA),形成一個(gè)音樂與動(dòng)作的映射序列。

2. 之前采集的舞蹈動(dòng)作只是人體骨骼關(guān)鍵點(diǎn)數(shù)據(jù),怎樣讓它們之間的連續(xù)過渡更加自然呢?研究人員借助 NLP 語(yǔ)義理解,讓 AI 可以根據(jù)積累的知識(shí)進(jìn)行實(shí)時(shí)反應(yīng)。利用 GAN 設(shè)計(jì)了一個(gè)運(yùn)動(dòng)生成模型,讓 AI 可以繪制一些舞蹈動(dòng)作,補(bǔ)上缺失的數(shù)據(jù),從而實(shí)現(xiàn)舞蹈的平滑過渡,產(chǎn)生自然的效果。

實(shí)驗(yàn)結(jié)果證明,與基線法相比,ChoreoNet 性能更好,可以生成持續(xù)時(shí)間較長(zhǎng)的結(jié)構(gòu)化控件,來生成與音樂匹配的動(dòng)作,并使其自然連接、情感流暢。

在這一突破中,搜狗對(duì)音頻驅(qū)動(dòng)身體動(dòng)作這一課題的敏銳感知,以及 AI 分身技術(shù)在身體動(dòng)作及姿態(tài)生成方面的加成,無疑是領(lǐng)先技術(shù)能力與創(chuàng)新意識(shí)的絕佳組合。

持續(xù)領(lǐng)跑,搜狗與分身技術(shù)的不解之緣

可以看到,ChoreoNet 的出現(xiàn),既帶來了人機(jī)交互能力的提升,也給機(jī)器學(xué)習(xí)融入了知識(shí)元素。這可以看做是搜狗“分身技術(shù)”的一次進(jìn)階,也側(cè)面印證了搜狗以“自然交互+知識(shí)計(jì)算”為核心的 AI 技術(shù)版圖,正在持續(xù)狂奔,也得以積蓄起不斷引領(lǐng)技術(shù)方向的勢(shì)能。

從 2018 年首創(chuàng)分身技術(shù)之后,搜狗的研發(fā)腳步從未停止,持續(xù)專注于如何以文本及音頻更好驅(qū)動(dòng)數(shù)字人的面部表情及唇動(dòng)進(jìn)行研究。相繼在 2D/3D 數(shù)字人領(lǐng)域構(gòu)建了音畫同步、逼真的面部表情唇動(dòng)生成及驅(qū)動(dòng)能力。

如何能夠讓數(shù)字人更加自然并且富有表現(xiàn)力也是搜狗分身的重點(diǎn)研究方向,其中身體動(dòng)作以及姿態(tài)的表達(dá)至關(guān)重要。在對(duì)數(shù)字人的面部驅(qū)動(dòng)達(dá)到較高標(biāo)準(zhǔn)后,搜狗將研究重點(diǎn)從面部為主的驅(qū)動(dòng)轉(zhuǎn)到面部+動(dòng)作的驅(qū)動(dòng),重點(diǎn)攻關(guān)如何讓肢體動(dòng)作更具自然表現(xiàn)力。如在今年 5 月推出的 3D AI 合成主播身上,不僅有經(jīng)得起高清鏡頭考驗(yàn)的面部表現(xiàn),同時(shí)實(shí)現(xiàn)了以文本語(yǔ)義為驅(qū)動(dòng)的自如行走。

如今,ChoreoNet 更進(jìn)一步,實(shí)現(xiàn)了以音頻對(duì) AI 數(shù)字人進(jìn)行實(shí)時(shí)驅(qū)動(dòng)。搜狗在業(yè)內(nèi)率先嘗試并取得突破性研發(fā)結(jié)果的這一舉動(dòng),更是一改只能由文本、語(yǔ)義驅(qū)動(dòng) AI 分身面部+動(dòng)作的現(xiàn)狀,為行業(yè)帶來了更多的創(chuàng)新可能,搜狗的分身技術(shù)理想與實(shí)力也躍然紙上。

不斷打造可視化、能自然交互的 AI 數(shù)字人,搜狗到底想做什么?

人機(jī)交互的未來,與搜狗的技術(shù)遠(yuǎn)景

回歸到企業(yè)戰(zhàn)略層面,搜狗的 AI 理念是讓 AI 賦能于人。通過人機(jī)協(xié)作,把人從重復(fù)性工作中解放出來,更好地解放社會(huì)生產(chǎn)力。比如 AI 主播,就可以讓主持人不再困于朗讀既定內(nèi)容,可以投身于更具創(chuàng)造性的工作。當(dāng)然,這一切都要從更自然的人機(jī)交互開始,完成一次次交流與觸碰。

而此次 ChoreoNet 讓數(shù)字人跟隨音樂起舞,這個(gè)創(chuàng)意的突破不僅僅是技術(shù)上夠炫酷,應(yīng)用空間也非常巨大。

不出意外,搜狗很大可能會(huì)將該技術(shù)同 3D 數(shù)字人相結(jié)合,因?yàn)橄噍^ 2D 數(shù)字人,3D 數(shù)字人的肢體靈活性、可塑性驅(qū)動(dòng)更強(qiáng),從而有更廣泛的應(yīng)用空間。音頻驅(qū)動(dòng)技術(shù)的加入,不僅能豐富搜狗 3D 數(shù)字人在新聞播報(bào)、外景采訪的場(chǎng)景,更直接有助于突破融媒體領(lǐng)域、向娛樂、影視等領(lǐng)域落地進(jìn)軍。可以看到,基于視覺的人機(jī)交互會(huì)越來越成為主流,比如當(dāng)前流行的智能客服、虛擬偶像等等,往往需要大量文本、語(yǔ)義的輸入來進(jìn)行推理與交互,虛擬偶像的動(dòng)作也需要捕捉后由人工逐幀進(jìn)行制作,而改為音頻驅(qū)動(dòng)可以更為直接地實(shí)現(xiàn)語(yǔ)音交流,節(jié)省制作 / 計(jì)算的步驟與成本。

此外,人類知識(shí)體系與機(jī)器學(xué)習(xí)的結(jié)合,讓 AI 能力有極大的提升。通過垂直領(lǐng)域的知識(shí)數(shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí),從而提供更精準(zhǔn)、可靠的服務(wù),大大提升 AI 客服的接受度。

當(dāng)然,音頻驅(qū)動(dòng)也可以生成更具人性化的個(gè)人秘書,幫助人減輕工作負(fù)擔(dān)、提高效率的同時(shí),通過音頻識(shí)別與判斷來實(shí)時(shí)反應(yīng),表現(xiàn)力更加豐富,讓智能家居、服務(wù)機(jī)器人等更好地融入生活環(huán)境,在老人關(guān)懷、私人助理、兒童陪伴等等場(chǎng)景之中,扮演更積極的角色。

業(yè)內(nèi)有個(gè)共識(shí),一般情況下只有對(duì)日常生活和技術(shù)突破具有巨大影響潛力的研究項(xiàng)目,才會(huì)被 ACM Multimedia 通過和錄取。從這個(gè)角度看,搜狗與清華天工院所做的工作,遠(yuǎn)遠(yuǎn)不只是學(xué)術(shù)上的突破那么簡(jiǎn)單。當(dāng)全球科技巨頭都在探索如何用多模態(tài)交互締造新玩法、新功能的時(shí)候,搜狗已經(jīng)向前邁出了讓人眼前一亮的步伐。

讓數(shù)字人更像人,就能更早地與人類達(dá)成親密無間的配合與協(xié)作,對(duì)于人類和 AI 來說,同樣重要。也正由于此,世界頂級(jí)盛會(huì)才會(huì)投注認(rèn)可與鼓勵(lì)。下一次,搜狗會(huì)為數(shù)字人集齊怎樣的能力呢?我們拭目以待。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜