加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 過去的成績:技術(shù)基因決定故事走向
    • 現(xiàn)實的困境:NLP如何為小微企業(yè)插上翅膀
    • 未來的企望:科技與產(chǎn)業(yè)的更多握手可能
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

從頂級賽事殿堂飛向人間煙火:度小滿的NLP技術(shù)突破能給小微企業(yè)帶來什么?

2021/03/17
295
閱讀需 12 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

一家企業(yè)的技術(shù)實力究竟怎么樣,國際頂級賽事的比拼,絕對是一塊試金石。

最近,在微軟舉辦的MS MARCO 比賽中的文檔排序Document Ranking(文檔排序)任務(wù)中,來自度小滿金融科技的AI-NLP團隊就刷新了記錄,超越三星、微軟、谷歌、斯坦福、清華大學等一眾參賽者,榮登榜首(截至2021年3月12日)。

2018年,度小滿金融才開始獨立運營,并組建了技術(shù)團隊。兩年多的時間,一家金融科技公司究竟是如何一步步實現(xiàn)了國際頂級賽事的能力飛躍?對于一家商業(yè)公司來說,學術(shù)領(lǐng)域的突破又意味著什么,是否能轉(zhuǎn)化為真實的產(chǎn)業(yè)價值,改變普通人的金融生活?

這些都是“第一名”的光環(huán)背后,更值得我們關(guān)注的東西。

過去的成績:技術(shù)基因決定故事走向

看到這個新聞,大家的第一反應(yīng)可能是“是微軟飄了還是谷歌提不動刀了”,這個比賽究竟是干嘛的?

簡單說一下MS MARCO挑戰(zhàn)賽。它是自然語言處理NLP領(lǐng)域的權(quán)威比賽,基于微軟構(gòu)建的大規(guī)模英文閱讀理解數(shù)據(jù)集MARCO(Microsoft Machine Reading Comprehension),需要參賽者為用戶輸入的問題找尋到最貼切、最需要的答案,并對答案進行排序。

以這次度小滿技術(shù)團隊刷新紀錄的文檔排序Document Ranking(文檔排序)任務(wù)為例,就至少面臨以下幾個挑戰(zhàn):

首先,MARCO數(shù)據(jù)集采用的是來自搜索引擎 BING 的用戶真實搜索行為和點擊日志,最大程度地模擬和還原了用戶使用搜索引擎的真實場景,因此數(shù)據(jù)標注并不完全,這會直接影響模型的性能表現(xiàn);

其次,MARCO數(shù)據(jù)集規(guī)模非常大,包含數(shù)百萬個問題和對應(yīng)的近千萬篇文檔,而每一個問題都會提供多篇來自搜索結(jié)果的網(wǎng)頁文檔,相當于要在一堆文檔中判斷出哪一個是用戶真正想要的,這需要機器對多篇文檔進行綜合理解才能判斷出答案。

此外,MS MARCO挑戰(zhàn)賽由于權(quán)威性高、應(yīng)用價值大,吸引非常多的工業(yè)界巨頭和學術(shù)機構(gòu)來參與,競爭十分激烈。要贏過來自海外谷歌、韓國三星AI研究院、斯坦福大學,國內(nèi)的清華大學等等的其他隊伍,難度更是直線上升。

而度小滿NLP團隊提交的模型,不僅以0.416的eval分數(shù)大幅領(lǐng)先其他團隊,還在第一名的位置維持了一個多月的時間,這不得不讓人好奇,他們到底是怎么做到的?

經(jīng)過訪談我們得知,度小滿NLP團隊首次提出了DML文本排序算法,通過自主研發(fā)的自適應(yīng)預訓練語言模型對query(用戶搜索的真實問題)和document文本進行深度理解,利用了數(shù)十萬數(shù)據(jù)來訓練模型,經(jīng)過召回、重排等多個階段,給出最終排序。

完成突破的過程毫無疑問是充滿艱苦的。度小滿的技術(shù)人員透露,參賽隊伍每天幾乎都工作10-15個小時,中間做了非常多的創(chuàng)新和嘗試,不斷優(yōu)化和改進算法??稍捰终f回來,技術(shù)創(chuàng)新最終比拼的還是“腦力”。度小滿金融2018年才開始獨立運營,兩年內(nèi)就能積累起挑戰(zhàn)國際AI巨頭的實力嗎?

原來,度小滿在成立初始,就抱著將NLP等科技引入金融業(yè)務(wù)當中的理想,建立起了一支AI團隊。其中一部分人來自百度,眾所周知,百度是中國NLP領(lǐng)域的一面技術(shù)旗幟,曾獲得過包括國家科技進步獎在內(nèi)的諸多權(quán)威獎項,這種技術(shù)基因也為度小滿所沿襲。而另一方面,度小滿也以十分嚴格的標準吸納技術(shù)人才,建構(gòu)起了一支實力強勁的技術(shù)隊伍。

團隊建起來了,安心支持自家的核心業(yè)務(wù)就好,為什么非得去國際賽場上“找虐”呢?

一方面,金融領(lǐng)域需要各種語言、語義相關(guān)的NLP技術(shù)和新方法來提升業(yè)務(wù)能力,來對風控模型、用戶畫像等進行升級,用更先進的算法來提升項目,也是度小滿從成立之初就追求的。而國際頂級賽事,自然成了不容錯過的絕佳“練兵場”。

桃李不言,下自成蹊。度小滿在NLP領(lǐng)域的突破,看似奇異,背后卻有著綿長的技術(shù)信仰、強烈的業(yè)務(wù)訴求支撐其前行。

現(xiàn)實的困境:NLP如何為小微企業(yè)插上翅膀

所有過往,皆為序章。

比起度小滿為什么要參加國際比賽,可能更讓人難以理解的是,刷新紀錄對你我普通人來說有什么意義?這種疑問,恰恰說明科技賦能產(chǎn)業(yè)的改造潛力遠比我們想象中更深。

詩人塞繆爾·約翰遜曾說,語言是科學的唯一工具。事實上,今天度小滿NLP領(lǐng)域所追尋的突破,也是在為金融科技和普通人之間搭建起一座橋梁。

度小滿所提交的模型,其所具備的強有力的文本理解和匹配能力,可以輕松應(yīng)用于金融、征信等多個領(lǐng)域中,賦能給中小企業(yè)者。

我們知道,中小企業(yè)融資難是個重要而復雜的問題。在現(xiàn)實中小微企業(yè)融資有著幾座難以逾越的高山:

1.融資成本高:由于小微企業(yè)的經(jīng)營規(guī)模小,風險系數(shù)高,一般還沒有抵押物,許多金融機構(gòu)不愿意放貸,或是設(shè)定更高的利息水平;

2.風控難度大:數(shù)據(jù)碎片化,缺乏長期信用評級,無法完整地了解小微企業(yè)的整體情況,判斷其償債能力,往往難以獲得銀行和資本市場的信任;

3.周轉(zhuǎn)場景多,現(xiàn)金流壓力大,而傳統(tǒng)融資渠道審核慢、放款慢,著急情況下很容易被黑灰產(chǎn)或不良小貸機構(gòu)欺騙。

在近幾年的政府的工作報告中,多次提及要“幫助小微企業(yè)降低綜合融資成本”。而通過公開數(shù)據(jù)我們發(fā)現(xiàn),度小滿針對小微企業(yè)主的年化貸款利率僅有3.65%。而全國銀行業(yè)新發(fā)放普惠性小微貸款的利率平均達到5.93%(2020年數(shù)據(jù))。2020年,度小滿累積為小微企業(yè)主提供了3000億元的無抵押信用貸款,人均放款額同比增加35%。

更低的利率,不低的額度,度小滿憑什么這么敢?技術(shù),就是所有不確定性中最大的確定性。

度小滿在MS MARCO比賽中所運用到的數(shù)據(jù)挖掘、閱讀理解等NLP技術(shù),就已經(jīng)在度小滿的小微風控模型中投入了實際應(yīng)用,通過對企業(yè)公章、征信報告等非結(jié)構(gòu)化信息進行深度挖掘和理解,為風控模型提供了更豐富的特征和數(shù)據(jù)維度,從而可以更高效精準地識別風險因素,提升小微企業(yè)的融資效率,幫助其抵御黑產(chǎn)侵害。

而在小微企業(yè)融資場景中,同樣存在很多這樣的信息,比如有的用戶并沒有提供相關(guān)信息或行為,系統(tǒng)就需要對這些沒有標注的樣本,準確地判斷出其風險等級。

推動AI、NLP技術(shù)走向產(chǎn)業(yè)側(cè),或許是提升小微企業(yè)融資效率、降低融資成本的解決方案中,最重要的議題之一。

就拿度小滿來說,首先,借助NLP技術(shù)跨越信任的高山。對非結(jié)構(gòu)化數(shù)據(jù)的挖掘,能夠從經(jīng)營行為、營業(yè)范圍、財務(wù)年報等等更多維度的信息中加深對用戶的洞察,準確判斷出對方的資質(zhì),解決傳統(tǒng)風控模型樣本不足、評級不準的問題,為資本市場與小微企業(yè)之間建立信任;

其次,利用AI智能化地識別出更多風險指標。傳統(tǒng)風控模型需要人根據(jù)業(yè)務(wù)需要和經(jīng)驗,確定哪些特征是有幫助的,而度小滿借助AI可以讓機器自動去學習相關(guān)特征,可以將數(shù)據(jù)得到充分利用,效率更高,征信結(jié)果更準確。

最后,通過技術(shù)協(xié)同來提升金融服務(wù)的可靠性與安全性。AI、NLP領(lǐng)域的技術(shù)能力并沒有讓度小滿忽視傳統(tǒng)金融工具的價值,事實上,在讓智能系統(tǒng)給出判斷的同時,度小滿也會結(jié)合一些業(yè)內(nèi)成熟應(yīng)用的統(tǒng)計方法作為參考,對小微企業(yè)的償債能力和風險系數(shù)進行綜合評估。

在度小滿的努力中,自然語言的奧秘被拆解,化成千行百業(yè)的智能化升級契機,小微企業(yè)可以在復雜變幻的商業(yè)環(huán)境中更快速地獲得支持、尋覓新機。這或許可以回答很多人的疑問:為什么企業(yè)要跟學術(shù)機構(gòu)一起在頂級賽事上同臺競技?

答案就在于,每一次技術(shù)領(lǐng)域的點滴突破,都有可能改變一些行業(yè)的既有規(guī)則,化不可能為可能,助力更多小微企業(yè)飛向更光明的未來。

未來的企望:科技與產(chǎn)業(yè)的更多握手可能

可以看到,想要在資本市場和小微企業(yè)之間建構(gòu)起信任橋梁,既需要技術(shù)積累,又要有對實體經(jīng)濟、小微企業(yè)業(yè)態(tài)的真實洞察與服務(wù)理念,這恰好也是度小滿一直以來努力的方向。

除了前面提到的風控等場景之外,其實在小微企業(yè)的金融需求中,還存在許多痛點。比如需要反復前往網(wǎng)點當面證明自己的資質(zhì)、等待人工審核等等,在這些環(huán)節(jié)中,度小滿也從用戶角度結(jié)合技術(shù)想了很多解決防范。

比如利用OCR技術(shù)將對方提供的電子化票據(jù)進行識別處理,在線上就能審核,實現(xiàn)申請秒批,有效緩解小微企業(yè)的資金壓力。

借助AI預測,度小滿也會在貸后運用機器人流程自動化(RPA)還款提醒,降低后期的運維成本,也讓小微企業(yè)主避免因逾期還款而帶來的負面影響。

對于合作伙伴來說,借助度小滿的技術(shù)能力,可以對更多潛在優(yōu)質(zhì)客戶進行準確識別,帶來業(yè)務(wù)上的良性增長。

也可以說,度小滿目前所扮演的,既是風險的守門員,也是增長的主推手,這是極為稀缺的產(chǎn)業(yè)角色。

從技術(shù)特征上推演,NLP技術(shù)的潛力能夠落地的場景和需求還有很多。具體要如何激發(fā)出技術(shù)的能量,這個問題就交給度小滿去操心吧。對于小微企業(yè)主來說,只需要安心經(jīng)營未來,不必為資金貸款終日憂心,這就是平凡至美的人間煙火味。

技術(shù)的根系越深遠,越能歷久彌長地將價值輸送到每一個產(chǎn)業(yè)細枝末節(jié)當中,直至浸潤每一個人的心田。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
39-00-0220 1 Molex Wire Terminal,
$0.5 查看
SM15T39CA 1 Telefunken Semiconductor GmbH & Co Kg Transient Suppressor,
$0.9 查看
293D106X0035D2TE3 1 Vishay Intertechnologies CAPACITOR, TANTALUM, SOLID, POLARIZED, 35 V, 10 uF, SURFACE MOUNT, 2917, CHIP, ROHS COMPLIANT

ECAD模型

下載ECAD模型
$0.74 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜