加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶(hù)
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • █ AVS3P10,到底是什么?
    • █ AVS3P10,究竟有多強(qiáng)?
    • █ AVS3P10,為什么這么強(qiáng)?
    • █ AVS3P10,是如何誕生的?
    • █ AVS3P10,意味著什么?
    • █?最后的話
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

騰訊會(huì)議的技術(shù)突破,新一代音頻編解碼標(biāo)準(zhǔn)來(lái)了!

07/11 13:10
551
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

今天這篇文章,我們要從一則新聞開(kāi)始說(shuō)起。

2024年6月12日-15日,AVS工作組第八十九次會(huì)議在浙江紹興召開(kāi)。會(huì)議上,工作組正式宣布,AVS3P10標(biāo)準(zhǔn)已經(jīng)完成最終委員會(huì)草案(FCD)階段,即將正式對(duì)外發(fā)布。

這條新聞對(duì)很多人來(lái)說(shuō)有點(diǎn)懵——AVS是個(gè)啥?AVS3P10標(biāo)準(zhǔn)又是干啥用的?這條新聞和我有關(guān)系嗎?

小棗君可以很負(fù)責(zé)任地告訴大家,這條新聞和我們每個(gè)人都有關(guān)系,而且關(guān)系非常密切。

接下來(lái),且聽(tīng)我細(xì)細(xì)解讀。

█ AVS3P10,到底是什么?

AVS工作組,中文全稱(chēng)叫數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組,是國(guó)內(nèi)多媒體領(lǐng)域最重要的標(biāo)準(zhǔn)化組織。

這個(gè)組織從2002年6月成立以來(lái),一直在牽頭AVS(Audio Video Coding Standard)數(shù)字音視頻標(biāo)準(zhǔn)的制定工作,推出了AVS1、AVS2等多個(gè)版本。

如今,他們正在重點(diǎn)研究的AVS3,是第三代AVS標(biāo)準(zhǔn),也叫《信息技術(shù) 智能媒體編碼》系列國(guó)家標(biāo)準(zhǔn)。

AVS3P10標(biāo)準(zhǔn),是AVS3的組成部分(第10部分 實(shí)時(shí)語(yǔ)音),由騰訊提議啟動(dòng)、推進(jìn)和維護(hù),并經(jīng)過(guò)AVS音頻組多家成員單位共同貢獻(xiàn),專(zhuān)門(mén)面向?qū)崟r(shí)語(yǔ)音通信

(RTC,Real-time Communication)場(chǎng)景。簡(jiǎn)單來(lái)說(shuō),就是研究如何對(duì)語(yǔ)音進(jìn)行編碼,實(shí)現(xiàn)低帶寬環(huán)境下的高質(zhì)量傳輸。

開(kāi)頭的那則新聞,是告訴大家:AVS3P10標(biāo)準(zhǔn)已經(jīng)基本制定完成,即將正式發(fā)布。

█ AVS3P10,究竟有多強(qiáng)?

一個(gè)語(yǔ)音編碼標(biāo)準(zhǔn),為什么值得關(guān)注呢?

原因很簡(jiǎn)單,因?yàn)檫@個(gè)AVS3P10標(biāo)準(zhǔn)不僅很強(qiáng),而且也很特別。

AVS3P10是全球首個(gè)系統(tǒng)性引入人工智能并實(shí)現(xiàn)真正意義上的低碼率下高質(zhì)量語(yǔ)音編碼標(biāo)準(zhǔn),為全球語(yǔ)音技術(shù)的發(fā)展帶來(lái)了革命性突破。

我們來(lái)做一個(gè)簡(jiǎn)單的數(shù)學(xué)題。

我們進(jìn)行語(yǔ)音通話,需要先通過(guò)麥克風(fēng)拾音,將聲音變成電信號(hào)。這個(gè)電信號(hào)是模擬信號(hào),需要通過(guò)設(shè)備電路完成采樣、量化、編碼,變成數(shù)字信號(hào)。

如果對(duì)一個(gè)原始聲音信號(hào)采用16000Hz的采樣率(每秒采集16000個(gè)點(diǎn)),16bit的位深度(每個(gè)點(diǎn)用16bit進(jìn)行表示),不做任何壓縮的話,1秒的音頻大小就是16000×16=256000bit。音頻碼率(單位時(shí)間傳送的數(shù)據(jù)位數(shù))是256kbps。

傳統(tǒng)的語(yǔ)音編碼器,包括AVS、ITU-T、3GPP、IETF等標(biāo)準(zhǔn)語(yǔ)音編碼器,能夠?qū)⒋a率壓到原始音頻的1/10。在16-20kbps左右碼率時(shí),能夠恢復(fù)出高質(zhì)量寬帶語(yǔ)音;在30-35kbps,可以恢復(fù)出高質(zhì)量超寬帶甚至全帶語(yǔ)音。然而,當(dāng)碼率進(jìn)一步降低時(shí)(例如10kbps以下),恢復(fù)質(zhì)量下降明顯,影響用戶(hù)體驗(yàn)。

那么,AVS3P10能支持多低的碼率呢?

6kbps,大約是傳統(tǒng)編碼器的1/3。

AVS3P10標(biāo)準(zhǔn)制定過(guò)程中,采用按照ITU-T P.800 DCR主觀質(zhì)量評(píng)價(jià)規(guī)范,并由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院和華為分別進(jìn)行了主觀測(cè)試和交叉驗(yàn)證。

主觀測(cè)試結(jié)果表明,在單聲道編碼場(chǎng)景,AVS3P10在寬帶和超寬帶等多個(gè)主要測(cè)試場(chǎng)景均達(dá)到了4.0以上MOS分(最高分5分),體現(xiàn)出明顯優(yōu)勢(shì),最低碼率可達(dá)5.9kbps。

在ITU-T P.863客觀質(zhì)量評(píng)價(jià)實(shí)驗(yàn)中,AVS3P10 RM0也有出色表現(xiàn)。在所有8個(gè)測(cè)試碼率中,AVS3P10 RM0均超過(guò)4.0 MOS,最高在4.45 MOS。

AVS工作組給出了極高的評(píng)價(jià):“AVS3P10 實(shí)時(shí)語(yǔ)音編碼,作為新一代的語(yǔ)音編解碼技術(shù)標(biāo)準(zhǔn),是對(duì)AVS系列標(biāo)準(zhǔn)的重要補(bǔ)充。該標(biāo)準(zhǔn)代表了騰訊在語(yǔ)音處理和人工智能技術(shù)創(chuàng)新和用戶(hù)體驗(yàn)方面的最高追求,體現(xiàn)了業(yè)界最高水平,將為用戶(hù)帶來(lái)前所未有的性能和體驗(yàn),引領(lǐng)行業(yè)進(jìn)入一個(gè)全新的時(shí)代?!?/p>

也許有些讀者會(huì)問(wèn),在我們目前這個(gè)高速互聯(lián)網(wǎng)時(shí)代,家里和公司的寬帶都是100Mbps以上,手機(jī)4G/5G速率也很高,支持這么低的碼率,真的有意義嗎?

答案是有意義。

我們現(xiàn)在通信技術(shù)很先進(jìn),網(wǎng)絡(luò)理論速率很高,但在實(shí)際環(huán)境中,經(jīng)常會(huì)遇到網(wǎng)絡(luò)信號(hào)不好的情況,例如電梯、地庫(kù)、隧道、高鐵、地鐵等環(huán)境,通話總是會(huì)卡頓。

AVS3P10僅需現(xiàn)有主流標(biāo)準(zhǔn)1/3的編碼碼率,就能實(shí)現(xiàn)同等清晰的音質(zhì)。這意味著,即使用戶(hù)身處網(wǎng)絡(luò)很差的環(huán)境,也能夠進(jìn)行線上會(huì)議、語(yǔ)音通話。

█ AVS3P10,為什么這么強(qiáng)?

AVS3P10之所以能夠有如此優(yōu)異的表現(xiàn),歸根到底,還是因?yàn)橛?a class="article-link" target="_blank" href="/tag/AI/">AI的助力。

作為AVS3P10標(biāo)準(zhǔn)的主要推動(dòng)者,騰訊在經(jīng)典信號(hào)處理過(guò)程中引入了深度神經(jīng)網(wǎng)絡(luò),以此大幅提升編解碼效率,突破傳統(tǒng)音頻編解碼器的香農(nóng)極限限制。

具體來(lái)說(shuō),AVS3P10會(huì)提前對(duì)海量語(yǔ)音信號(hào)進(jìn)行建模學(xué)習(xí)。在編碼時(shí),提取最核心的特征參數(shù),并根據(jù)重要性進(jìn)行碼率智能分配。相比傳統(tǒng)編碼器按照物理規(guī)則提取參數(shù),AVS3P10的效率更高。

在編碼和解碼過(guò)程中,AVS3P10的深度學(xué)習(xí)網(wǎng)絡(luò)是同時(shí)進(jìn)行聯(lián)合訓(xùn)練的,確保解碼端能夠“領(lǐng)會(huì)”編碼端的意圖,更準(zhǔn)確地重建語(yǔ)音中的細(xì)微結(jié)構(gòu),避免聲音信號(hào)失真。

將AI引入編解碼器,不可避免需要考慮到算力和功耗的問(wèn)題。如果算法對(duì)算力的要求過(guò)高,一方面要考慮到設(shè)備是否能夠跑得動(dòng)(快速流暢執(zhí)行算法),另一方面,也要考慮高算力帶來(lái)的高功耗,進(jìn)而影響設(shè)備的發(fā)熱和待機(jī)時(shí)長(zhǎng)。

據(jù)了解,AVS3P10所采用的模型只有百K規(guī)模,是一個(gè)在體積、效率、功耗上都有嚴(yán)格限制的、極為精密的小模型。

換句話說(shuō),騰訊技術(shù)團(tuán)隊(duì)基于自身深厚的AI底層技術(shù)能力,實(shí)現(xiàn)了“小模型、高性能”的效果,打造出了一個(gè)世界級(jí)水平的產(chǎn)品。

█ AVS3P10,是如何誕生的?

騰訊作為一個(gè)互聯(lián)網(wǎng)公司,為什么會(huì)牽頭推出一個(gè)音頻編解碼技術(shù)標(biāo)準(zhǔn)呢?

其實(shí),騰訊之所以會(huì)這么做,和自己的拳頭產(chǎn)品騰訊會(huì)議有密切關(guān)系。

2020年,騰訊會(huì)議團(tuán)隊(duì)就提出了低碼率下保證高質(zhì)量語(yǔ)音的需求。

騰訊云副總裁、騰訊會(huì)議天籟實(shí)驗(yàn)室主任商世東說(shuō):“騰訊會(huì)議有億級(jí)用戶(hù)的真實(shí)場(chǎng)景。從我們的真實(shí)觀察來(lái)看,用戶(hù)遭遇弱網(wǎng)環(huán)境的案例比比皆是,這導(dǎo)致了即便單純從降低碼率這一個(gè)維度看,我們把技術(shù)提升到極致就已經(jīng)有很大的收益;甚至,還會(huì)有新的、意想不到的應(yīng)用場(chǎng)景被開(kāi)拓出來(lái)”。

基于傳統(tǒng)方法繼續(xù)降低碼率,路徑是極為困難的,幾乎不可能實(shí)現(xiàn)。于是,他們想到了AI。

天籟實(shí)驗(yàn)室主動(dòng)聯(lián)系了騰訊AI Lab團(tuán)隊(duì),商討通過(guò)深度神經(jīng)網(wǎng)絡(luò)進(jìn)一步提升音頻編解碼能力的可能性。經(jīng)過(guò)緊鑼密鼓的研發(fā),2021年,他們自研推出了騰訊首款神經(jīng)網(wǎng)絡(luò)語(yǔ)音編解碼器——Penguins。

他們將Penguins規(guī)模用于騰訊會(huì)議的駕駛模式、弱網(wǎng)模式及QQ語(yǔ)音通話等場(chǎng)景,支持了億級(jí)用戶(hù)的流暢溝通,收到了非常好的反饋,大幅改善了用戶(hù)的音頻通信體驗(yàn)。

初戰(zhàn)告捷,騰訊團(tuán)隊(duì)深受鼓舞。于是,他們進(jìn)一步考慮,是不是可以把Penguins變成行業(yè)標(biāo)準(zhǔn),讓更多的用戶(hù)也享受到它所帶來(lái)的體驗(yàn)改善呢?

2023年3月,在AVS工作組第84次會(huì)議上,騰訊團(tuán)隊(duì)提議在AVS音頻組啟動(dòng)面向?qū)崟r(shí)語(yǔ)音通信場(chǎng)景的低碼率高質(zhì)量語(yǔ)音統(tǒng)項(xiàng)目。經(jīng)過(guò)需求分析,在第85次會(huì)議上,AVS工作組正式立項(xiàng)AVS3P10實(shí)時(shí)語(yǔ)音編碼項(xiàng)目。

如今,僅用了一年的時(shí)間,AVS3P10就完成了多輪會(huì)議的審議、測(cè)試和驗(yàn)證,走向正式發(fā)布,堪稱(chēng)神速。

AVS工作組是這么評(píng)價(jià)AVS3P10的——標(biāo)準(zhǔn)制定速度最快、標(biāo)準(zhǔn)交付質(zhì)量最高、測(cè)試得到充分好評(píng)。

█ AVS3P10,意味著什么?

成為行業(yè)標(biāo)準(zhǔn),是AVS3P10前進(jìn)道路上的一個(gè)重要里程碑。但這并不是終點(diǎn)。接下來(lái),它還要進(jìn)入市場(chǎng),面臨來(lái)自更多用戶(hù)以及應(yīng)用場(chǎng)景的考驗(yàn)。

作為中國(guó)自主知識(shí)產(chǎn)權(quán)的音頻編解碼標(biāo)準(zhǔn),它需要和國(guó)際上其它主流及新興標(biāo)準(zhǔn)繼續(xù)進(jìn)行PK。

AVS3P10是以AI為核心的技術(shù),和傳統(tǒng)純信號(hào)處理的編解碼技術(shù)存在很大差異。結(jié)合性能損失等因素考慮,AVS3P10和其它解碼標(biāo)準(zhǔn)并不兼容。

騰訊會(huì)議天籟實(shí)驗(yàn)室專(zhuān)家研究員、AVS3P10標(biāo)準(zhǔn)Editor肖瑋表示,在現(xiàn)有所有通信體系中,設(shè)備會(huì)安裝很多的編碼器,比如ITU-T的經(jīng)典711、經(jīng)典722,以及AMAWB、3GPP、EVS,甚至IETF、OPUS、音頻的ANC等。不同的編碼器,可以應(yīng)對(duì)不同的應(yīng)用場(chǎng)景。AVS3P10針對(duì)這些編碼器并不是取代關(guān)系,而是根據(jù)場(chǎng)景需求,選擇進(jìn)行新增。如果系統(tǒng)判斷兩端都支持AVS3P10,則進(jìn)行透?jìng)?。如果另一端不支持,可以通過(guò)轉(zhuǎn)碼進(jìn)行解決。

AVS3P10標(biāo)準(zhǔn)正式發(fā)布后,憑借自身的優(yōu)異性能,一定可以贏得越來(lái)越多廠商的認(rèn)可,逐漸擴(kuò)大普及。業(yè)界普遍存在的弱網(wǎng)環(huán)境高質(zhì)量語(yǔ)音通信痛點(diǎn),將得到根本的解決。

對(duì)于騰訊來(lái)說(shuō),成功將開(kāi)發(fā)出Penguins,并將其推動(dòng)成為行業(yè)標(biāo)準(zhǔn),也有極為深遠(yuǎn)的意義。

一方面,他們證明了AI技術(shù)引入產(chǎn)品場(chǎng)景,可以解決現(xiàn)實(shí)存在的問(wèn)題,尤其是傳統(tǒng)方法難以解決的問(wèn)題。這是AI落地的一次創(chuàng)新應(yīng)用,創(chuàng)造了實(shí)際價(jià)值。

另一方面,在做這項(xiàng)工作的過(guò)程中,磨練了研發(fā)團(tuán)隊(duì)的能力,也增加了自己在AI技術(shù)上的沉淀和積累。

根據(jù)騰訊AI Lab高級(jí)研究員陽(yáng)珊的介紹,在打磨Penguins的過(guò)程中,他們進(jìn)行了大量的優(yōu)化工作。調(diào)優(yōu)的顆粒度比算法更加精細(xì),包括最底層的算子、甚至更低一層的函數(shù),都會(huì)進(jìn)行優(yōu)化。

第三方面,就是通過(guò)牽頭標(biāo)準(zhǔn)建設(shè),促進(jìn)了行業(yè)內(nèi)的技術(shù)合作與生態(tài)形成,推動(dòng)了技術(shù)的更新迭代,給最終用戶(hù)帶來(lái)了技術(shù)普惠。

作為標(biāo)準(zhǔn)的主要貢獻(xiàn)方,騰訊的技術(shù)實(shí)力能夠得到進(jìn)一步的認(rèn)可。從需求提出到標(biāo)準(zhǔn)制定,再到標(biāo)準(zhǔn)落地,騰訊可以更好地實(shí)現(xiàn)標(biāo)準(zhǔn)閉環(huán)。這樣的標(biāo)準(zhǔn),更加有說(shuō)服力。

目前,我們也可以看到,除了音頻領(lǐng)域之外,騰訊在3GPP、Wi-Fi、游戲優(yōu)化等領(lǐng)域都有積極參與標(biāo)準(zhǔn)制定。騰訊的很多底層先進(jìn)技術(shù),正在轉(zhuǎn)換為行業(yè)標(biāo)準(zhǔn),解決行業(yè)共性的痛點(diǎn)問(wèn)題。

?最后的話

AI浪潮滾滾向前。AVS3P10標(biāo)準(zhǔn),可以視為AI在ICT領(lǐng)域的一次小試牛刀。

隨著整個(gè)社會(huì)加大對(duì)AI落地的重視,相信會(huì)有更多AI賦能傳統(tǒng)場(chǎng)景的案例誕生。也許不久后,視頻編碼、網(wǎng)絡(luò)通信等領(lǐng)域,都會(huì)被AI重構(gòu),帶來(lái)巨大的效率和體驗(yàn)提升。

這是新一輪的技術(shù)革命,讓我們拭目以待。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
KSZ8041TLI 1 Microchip Technology Inc DATACOM, ETHERNET TRANSCEIVER, PQFP48

ECAD模型

下載ECAD模型
$3.59 查看
AD9364BBCZREEL 1 Analog Devices Inc 1 x 1 RF Agile Transceiver
暫無(wú)數(shù)據(jù) 查看
KSZ8873MLLV 1 Microchip Technology Inc LAN Switching Circuit, PQFP64
暫無(wú)數(shù)據(jù) 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

通信行業(yè)知名新媒體鮮棗課堂創(chuàng)始人,通信行業(yè)資深專(zhuān)家、行業(yè)分析師、自媒體作者,《智聯(lián)天下:移動(dòng)通信改變中國(guó)》叢書(shū)作者。通信行業(yè)13年工作經(jīng)驗(yàn),曾長(zhǎng)期任職于中興通訊股份有限公司,從事2/3/4G及5G相關(guān)技術(shù)領(lǐng)域方面的研究,曾擔(dān)任中興通訊核心網(wǎng)產(chǎn)品線產(chǎn)品經(jīng)理、能力提升總監(jiān)、中興通訊學(xué)院二級(jí)講師、中興通訊高級(jí)主任工程師,擁有豐富的行業(yè)經(jīng)驗(yàn)和積累。