加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 建議
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

大模型上車有多難?

09/26 09:51
650
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

日前,中國電動汽車百人會發(fā)布調(diào)研報告《全球及我國新能源汽車產(chǎn)業(yè)發(fā)展趨勢與政策走向》。報告指出,探索大模型在汽車領(lǐng)域的應(yīng)用仍面臨諸多挑戰(zhàn),并給出了相應(yīng)建議。

1ONE

挑戰(zhàn)

目前,國內(nèi)企業(yè)面臨訓(xùn)練芯片“卡脖子”問題。

大模型云端訓(xùn)練需要上萬片高端GPU訓(xùn)練芯片,尤其是端到端自動駕駛訓(xùn)練數(shù)據(jù)量已達到PB級,訓(xùn)練芯片需求更大。特斯拉端到端自動駕駛FSD V12在超過10萬塊GPU芯片支撐下才實現(xiàn)周級迭代。國內(nèi)多數(shù)車企僅有上千塊GPU,很難發(fā)揮海量數(shù)據(jù)價值并實現(xiàn)較好的訓(xùn)練效果。

大模型在云端提供服務(wù)也需要大量算力支撐,以ChatGPT為例,按照每天獨立訪問量2500萬次計算,預(yù)計需要3萬多片A100芯片。目前,美國對華禁售A100、H100高性能GPU芯片,甚至也限制出售“閹割”版的A800、H800。

同時,國產(chǎn)芯片仍存在制程落后、性能不足等問題,部分芯片在大規(guī)模訓(xùn)練時故障率較高,使用體驗仍有欠缺,導(dǎo)致我國車企的算力擴展遇到很大阻力。

國內(nèi)大模型訓(xùn)練數(shù)據(jù)量少且質(zhì)量不高。數(shù)量方面,據(jù)Epoch AI估算,全球用于訓(xùn)練通用大模型的數(shù)據(jù)中,書籍、科研論文等高質(zhì)量語言數(shù)據(jù)集可能會在2024 年前耗盡,大模型訓(xùn)練或?qū)⒚媾R無數(shù)據(jù)可用的窘境。中文語料數(shù)據(jù)僅占約1.3%,Common Crawl、BooksCorpus、WiKi pedia、ROOT等主流數(shù)據(jù)集都以英文為主,即使是最流行的Common Crawl數(shù)據(jù)集,中文數(shù)據(jù)也只占4.8%。另外,大模型理解和掌握客觀世界規(guī)律,需要學(xué)習(xí)大量來自知識和價值觀層的數(shù)據(jù),此類中文語料短缺嚴重,甚至無法通過機器翻譯進行彌補。聚焦自動駕駛領(lǐng)域,特斯拉擁有超過1000萬個有效視頻片段數(shù)據(jù),且其在全球有超過600萬輛智能汽車在通過影子模式持續(xù)采集數(shù)據(jù),平均每輛車一天就能搜集到一個典型的極端工況樣本。與之相比,國內(nèi)車企場景數(shù)據(jù)普遍不足百萬,且出于數(shù)據(jù)合規(guī)的考慮,車企之間數(shù)據(jù)的共享流通仍有阻塞,導(dǎo)致國內(nèi)車企的高價值場景數(shù)據(jù)較特斯拉相差超過一個數(shù)量級。

質(zhì)量方面,高質(zhì)量數(shù)據(jù)集,需要企業(yè)在數(shù)據(jù)治理方面投入巨大的資金和精力,包括頂層設(shè)計、標注規(guī)范、標注質(zhì)量把控以及發(fā)布后更新升級等各個方面,但國內(nèi)企業(yè)在數(shù)據(jù)挖掘和數(shù)據(jù)治理領(lǐng)域的積累和沉淀不足。汽車行業(yè)屬于傳統(tǒng)制造業(yè),數(shù)據(jù)的沉淀更是差強人意。這使得大模型在汽車行業(yè)落地應(yīng)用過程中,存在明顯的訓(xùn)練數(shù)據(jù)分布不均衡及完備性較差等問題。例如,國內(nèi)車企的絕大部分數(shù)據(jù)分布在幾個密集的場景里,“頭部效應(yīng)”非常明顯,真正需要的極端工況數(shù)據(jù)卻非常少。且國內(nèi)車企車型多而單一車型存量少,不同車型的傳感器功能不一樣,采集的數(shù)據(jù)各有差異。與特斯拉車型相對集中且傳感器方案比較統(tǒng)一相比,國內(nèi)車企數(shù)據(jù)的復(fù)用性很差。

數(shù)據(jù)問題不解決,大模型可能會形成“偏科”,導(dǎo)致產(chǎn)生嚴重的“幻覺”問題,由于汽車行業(yè)本身對安全性和可靠性的要求極高,這也會大大限制大模型的應(yīng)用落地。

落地商業(yè)模式不清晰。一方面,大模型處于發(fā)展初期,主要以Token使用量收費。從TO B模式來看,車企每年的預(yù)算、成本、營收是固定的,以Token使用量來收費的模式動態(tài)性太大,車企難以接受。

另一方面,“軟件+服務(wù)”的模式,在國內(nèi)很難得到認可。在汽車行業(yè)“內(nèi)卷”越來越嚴重的當(dāng)下,純license模式也難以持續(xù),企業(yè)付費意愿不高。此外,大模型商業(yè)化的價值,還是以提升車企產(chǎn)品銷量的傳統(tǒng)方式為主,車企、大模型企業(yè)雙方還未找到可以合作共贏的路徑。

缺乏良性合作生態(tài)支撐。一是貫穿實時信息以及垂類信息的數(shù)據(jù)生態(tài)還未形成,導(dǎo)致大模型對實時動態(tài)和垂直領(lǐng)域的理解能力比較差。例如,GPT-3.5訓(xùn)練數(shù)據(jù)集截止到2021年,無法理解和處理2022年的信息。

二是大模型上車會對整車軟件架構(gòu)、硬件能力、交互策略產(chǎn)生很大影響。目前國內(nèi)大模型產(chǎn)品非常多且迭代速度非???,如何在保證產(chǎn)品競爭力的前提下與大模型企業(yè)合作,車企仍存疑惑。

三是開源大模型沒有一個是由中國完全主導(dǎo)的,勢必會影響國內(nèi)AI技術(shù)的迭代速度與創(chuàng)新能力。在全球化競爭日益激烈的背景下,沒有主導(dǎo)的開源大模型,可能使中國AI企業(yè)在國際市場上處于不利地位。

缺乏大模型能力評價標準。行業(yè)和消費者對大模型上車的期望都很高,但對其表現(xiàn)的訴求“千人千面”。有些人希望大模型無所不能,對所有的問題都能答復(fù)。有些人希望簡潔,只要按照指令操作即可。如何評價大模型在具體場景下的能力,仍然沒有明確、統(tǒng)一的標準。例如,當(dāng)前大模型在語音交互的語言理解、邏輯推理、信息歸納等能力方面,已經(jīng)有很多評價指標,但是在上車評價方面,仍面臨識別準確率的評判局限、響應(yīng)速度評價單一、用戶體驗受主觀性和復(fù)雜性拘束、缺乏多場景綜合評估等挑戰(zhàn)。

2TWO

建議

加強大模型對汽車行業(yè)顛覆性影響的認識。汽車行業(yè)的根本是制造業(yè),大模型創(chuàng)新發(fā)展的速度遠遠超出了汽車產(chǎn)業(yè),兩個產(chǎn)業(yè)融合會對汽車產(chǎn)業(yè)產(chǎn)生深刻甚至顛覆性的影響。汽車行業(yè)需要從戰(zhàn)略上刷新認知,順應(yīng)技術(shù)發(fā)展趨勢,加快擁抱和接納大模型的速度,充分利用大模型加快汽車產(chǎn)業(yè)智能化發(fā)展的步伐。

建立適應(yīng)大模型發(fā)展的管理機制。智能汽車的快速發(fā)展是多部門共同推進的結(jié)果,大模型在汽車行業(yè)的落地應(yīng)用是一個系統(tǒng)性工程,需要算力、算法、信息傳輸?shù)榷鄬用婺芰Φ墓餐С郑枰块T統(tǒng)籌推進,建立一個適應(yīng)大模型發(fā)展的管理機制。在技術(shù)相對落后的情況下,發(fā)揮我國多系統(tǒng)協(xié)同的能力和優(yōu)勢,從而探索出差異化的發(fā)展道路。

加強試點示范。目前,國內(nèi)通過備案的大模型達117個,但真正實現(xiàn)商業(yè)變現(xiàn)的很少,關(guān)鍵是沒有找到核心的應(yīng)用場景。建議選擇具有代表性的車企和大模型企業(yè),開展試點示范項目,通過應(yīng)用驅(qū)動的方式,探索大模型在汽車領(lǐng)域的高價值應(yīng)用場景,形成可復(fù)制、可推廣的經(jīng)驗?zāi)J?,促進大模型的可持續(xù)健康發(fā)展。

加快推動算力共享。以美國為代表的發(fā)達國家的AI和芯片,已經(jīng)形成軟硬件相互促進的合力。為彌補算力短板,建議政府部門和行業(yè)機構(gòu)推動建立算力聯(lián)盟,把部分公共屬性的算力統(tǒng)籌起來?;蛘吖膭钇髽I(yè)揭榜掛帥,將國內(nèi)各公司分散的算力集中起來,推動算力資源共享,解決AI基建不足的問題。

促進汽車數(shù)據(jù)共享與流通。一方面,加快制定汽車數(shù)據(jù)定價、權(quán)責(zé)劃分、流通交易等基礎(chǔ)制度,消除相關(guān)法規(guī)壁壘,促進汽車數(shù)據(jù)大規(guī)模流通,增加可供大模型訓(xùn)練的數(shù)據(jù)量。

另一方面,借鑒北京市政府開放市區(qū)級單位高質(zhì)量政務(wù)數(shù)據(jù)的做法,在合法、保證隱私的前提下逐步放開部委、地方政府的政務(wù)數(shù)據(jù)并積極引導(dǎo)行業(yè)機構(gòu)釋放部分高質(zhì)量數(shù)據(jù),形成通用型數(shù)據(jù)集并對外公開,比如地理信息涉密等級、AI內(nèi)容生成涉及的道德、倫理、法規(guī)等相關(guān)信息。

此外,加大對數(shù)據(jù)合成、仿真數(shù)據(jù)方面的支持力度,適當(dāng)鼓勵并推動合成數(shù)據(jù)的應(yīng)用,彌補國內(nèi)車企數(shù)據(jù)不足的短板。

構(gòu)建開放性合作生態(tài)。發(fā)揮好車企的鏈主角色,推動形成面向全行業(yè)的開放平臺。車企把握數(shù)據(jù)入口,供應(yīng)商提供算法、算力,共同打造能力共享、靈活組合的開放性生態(tài),協(xié)同推動汽車行業(yè)大模型的發(fā)展。

加快建立大模型上車與評價標準體系。在行業(yè)機構(gòu)的牽頭下,根據(jù)差異化落地場景,分步驟推動大模型上車評價標準和宣傳體系的建立??蓛?yōu)先推動進展較快的人機交互等應(yīng)用場景。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜