加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶(hù)
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

承啟生物基于FANSe算法的基因測(cè)序分析云平臺(tái)在AWS上運(yùn)行成功

2022/09/19
1187
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

深圳2022年9月19日 /美通社/ -- 近日,承啟生物攜手亞馬遜云服務(wù)(AWS),在AWS上成功部署了基于FANSe算法的全自主基因測(cè)序分析云平臺(tái),并免費(fèi)向全世界開(kāi)放使用。承啟生物將依托AWS構(gòu)建的云計(jì)算加速系統(tǒng),充分發(fā)揮FANSe算法精確高效、便捷快速、可擴(kuò)展性強(qiáng)等性能優(yōu)勢(shì),為全世界的基因測(cè)序企業(yè)和科研機(jī)構(gòu)做好服務(wù)。FANSe算法在AWS平臺(tái)的運(yùn)行也標(biāo)志著中國(guó)自主研發(fā)的精準(zhǔn)組學(xué)技術(shù)解決方案走出國(guó)門(mén)走向世界,為精準(zhǔn)醫(yī)療的發(fā)展貢獻(xiàn)力量。

速度慢、算不準(zhǔn) 傳統(tǒng)算法短板不容忽視

隨著數(shù)字化時(shí)代的全面到來(lái),越來(lái)越多的企業(yè)開(kāi)始將應(yīng)用向云端遷移,而且從外圍輔助型應(yīng)用,逐步深入到生產(chǎn)和決策等核心業(yè)務(wù)系統(tǒng),而AWS作為全球最大的云服務(wù)商,為全球數(shù)百萬(wàn)企業(yè)提供了安全性高、擴(kuò)展性強(qiáng)、可靠性高的云基礎(chǔ)設(shè)施,同時(shí),還提供了來(lái)自全球數(shù)據(jù)中心的超200種功能服務(wù),搭建了極具活力的生態(tài)系統(tǒng),其較高的整體網(wǎng)絡(luò)質(zhì)量,低延遲、低數(shù)據(jù)包丟失,應(yīng)用程序靈活度高等特點(diǎn)滿(mǎn)足了公共事業(yè)政府部門(mén)、傳統(tǒng)企業(yè)、老牌互聯(lián)網(wǎng)企業(yè)、創(chuàng)業(yè)科技公司等不同機(jī)構(gòu)企業(yè)的多元化需求。由于云計(jì)算彈性好、帶寬大、算力高、按需付費(fèi)的特點(diǎn),似乎十分適合基因測(cè)序分析的場(chǎng)景,在AWS平臺(tái)上,此前也確實(shí)有部分大規(guī)模測(cè)序分析算法運(yùn)行,比如一些基于BWT的算法,然而卻少有在精準(zhǔn)醫(yī)學(xué)和科研中的實(shí)際應(yīng)用,因?yàn)閼?yīng)用體驗(yàn)其實(shí)算不得好,主要集中在速度慢、算不準(zhǔn)兩個(gè)問(wèn)題上。

當(dāng)前主流的二代基因測(cè)序是將DNA或RNA隨機(jī)打斷成無(wú)數(shù)個(gè)小片段進(jìn)行并行測(cè)序,數(shù)據(jù)量極大,一個(gè)人全基因組測(cè)序數(shù)據(jù)集動(dòng)輒高達(dá)300GB以上,采用通用壓縮算法可將其壓縮至1/4,上傳仍然需要幾個(gè)小時(shí),傳完還得解壓。隨后,需要進(jìn)行序列過(guò)濾、序列比對(duì)、統(tǒng)計(jì)檢驗(yàn)、數(shù)據(jù)庫(kù)匹配等大量計(jì)算才能得出有意義的檢測(cè)結(jié)果,傳統(tǒng)算法運(yùn)算效能不高,例如基因組突變搜尋常需要幾十個(gè)小時(shí)才能跑完整個(gè)流程。為了提升算法的速度,國(guó)內(nèi)有云計(jì)算服務(wù)商部署了FPGA硬件加速的基因測(cè)序分析系統(tǒng),但此類(lèi)分析系統(tǒng)成本高昂、應(yīng)用單一,難以適應(yīng)日新月異的應(yīng)用需求。盡管如此,其單任務(wù)處理速度耗時(shí)依然較長(zhǎng),例如分析完成一個(gè)人全基因組測(cè)序數(shù)據(jù)集(不計(jì)網(wǎng)絡(luò)傳輸)仍需接近2個(gè)小時(shí),這種速度顯然無(wú)法適應(yīng)精準(zhǔn)醫(yī)學(xué)時(shí)代每天海量樣品的分析需求。此外,傳統(tǒng)測(cè)序分析算法參數(shù)復(fù)雜,如若沒(méi)有相應(yīng)的專(zhuān)業(yè)知識(shí)和經(jīng)驗(yàn)試錯(cuò),不易設(shè)置最優(yōu)化的參數(shù),從而直接影響檢出率和準(zhǔn)確率。因此,企業(yè)寧愿自行購(gòu)買(mǎi)維護(hù)昂貴的服務(wù)器集群、花大價(jià)錢(qián)雇傭生信分析員在本地進(jìn)行分析,也極少愿意在實(shí)際業(yè)務(wù)中使用云平臺(tái)。

FANSe在AWS公有云平臺(tái)上線(xiàn) 為基因測(cè)序行業(yè)降本增效

FANSe(黑色線(xiàn))和兩種國(guó)際常用算法(綠色和藍(lán)色線(xiàn))在體細(xì)胞突變標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集上的靈敏度對(duì)比
FANSe(黑色線(xiàn))和兩種國(guó)際常用算法(綠色和藍(lán)色線(xiàn))在體細(xì)胞突變標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集上的靈敏度對(duì)比

FANSe算法由承啟生物全自主研發(fā),歷經(jīng)多次更新迭代,如今已發(fā)展到第四代,在基因組突變搜尋、轉(zhuǎn)錄組定量等常見(jiàn)應(yīng)用中,其準(zhǔn)確度和穩(wěn)健性顯著超越傳統(tǒng)算法,是迄今為止穩(wěn)健性和準(zhǔn)確性最高的比對(duì)算法。在運(yùn)行速度上,其曾創(chuàng)下并至今保持了單機(jī)5分鐘分析完一個(gè)30X人全基因組測(cè)序數(shù)據(jù)集的世界紀(jì)錄。承啟還自主開(kāi)發(fā)了專(zhuān)用于FANSe的壓縮算法,能將測(cè)序數(shù)據(jù)壓縮至最高1/20進(jìn)行傳輸,成倍降低了網(wǎng)絡(luò)傳輸耗時(shí),且無(wú)需解壓即可被FANSe處理。承啟生物自主搭建的基于FANSe算法的私有云平臺(tái)表現(xiàn)出了優(yōu)異的性能,用戶(hù)不必購(gòu)買(mǎi)服務(wù)器,也不必掌握艱深的生物信息學(xué)知識(shí),點(diǎn)點(diǎn)鼠標(biāo)即可完成測(cè)序分析,得到穩(wěn)健而精準(zhǔn)的結(jié)果。但在私有云上由于帶寬的限制,隨著使用承啟云分析的客戶(hù)增多,就會(huì)出現(xiàn)數(shù)據(jù)"扎堆"傳不上,帶寬被"擠爆"的現(xiàn)象,這時(shí),即使是FANSe這類(lèi)快速精準(zhǔn)的算法也失去了用武之地。

承啟生物開(kāi)發(fā)人員正在一臺(tái)高端家用電腦上調(diào)試Chi-Cloud

如今,基于FANSe算法的基因測(cè)序分析云平臺(tái)"搬"到了AWS公有云平臺(tái)上,首先解決的就是網(wǎng)絡(luò)帶寬問(wèn)題。公有云分布式的網(wǎng)絡(luò)總帶寬極大,可以承載很多用戶(hù)海量數(shù)據(jù)的同時(shí)上傳,這對(duì)FANSe算法來(lái)說(shuō)無(wú)疑是"如虎添翼",其極為高效的優(yōu)勢(shì)在公有云彈性大的特點(diǎn)下得以充分展現(xiàn):?jiǎn)稳蝿?wù)完成速度快,小規(guī)模的應(yīng)用上傳完畢稍等片刻即可得到結(jié)果,大型應(yīng)用如全基因組測(cè)序分析也只是需要調(diào)用更多的計(jì)算核心而已。且FANSe完全不需要任何FPGA、GPU等硬件加速,僅靠CPU運(yùn)算就可實(shí)現(xiàn)如此高的速度,通用性較好,云服務(wù)商也無(wú)需專(zhuān)門(mén)配置專(zhuān)用硬件,在現(xiàn)有硬件上就可以良好運(yùn)行,易于不斷升級(jí)來(lái)適應(yīng)層出不窮的新應(yīng)用。

其次,基于FANSe算法的基因測(cè)序分析云平臺(tái)在AWS上的成功運(yùn)行,可以讓來(lái)自全球的基因測(cè)序企業(yè)和科研機(jī)構(gòu)在滿(mǎn)足各國(guó)敏感數(shù)據(jù)不出境的法律法規(guī)要求下享有精準(zhǔn)高效的分析服務(wù),此前,由于涉及人類(lèi)遺傳資源,許多國(guó)家和地區(qū)政府立法規(guī)定基因測(cè)序數(shù)據(jù)和樣本不允許出境,這也就使得很多境外企業(yè)和科研機(jī)構(gòu)不能應(yīng)用FANSe云平臺(tái)進(jìn)行基因測(cè)序數(shù)據(jù)分析。而由于AWS平臺(tái)在各國(guó)都設(shè)有數(shù)據(jù)中心,完美地符合法律法規(guī)要求,就可以讓全世界都獲得基于FANSe算法的基因測(cè)序分析服務(wù),從而推動(dòng)全球基因測(cè)序、精準(zhǔn)醫(yī)學(xué)行業(yè)的快速發(fā)展。

于企業(yè)而言,F(xiàn)ANSe在AWS的成功運(yùn)行可以為其實(shí)現(xiàn)降本增效,而對(duì)于承啟生物而言,在如今中美貿(mào)易戰(zhàn)、科技戰(zhàn)愈演愈烈的國(guó)際大背景下,純國(guó)產(chǎn)自主研發(fā)的技術(shù)能獲得全球最大云服務(wù)商的高度認(rèn)可并全球部署,是中美基因測(cè)序行業(yè)逆向技術(shù)溢出效應(yīng)的一個(gè)良好開(kāi)端,未來(lái),承啟生物將繼續(xù)深耕組學(xué)技術(shù)領(lǐng)域,以更多的國(guó)產(chǎn)創(chuàng)新技術(shù)助推行業(yè)發(fā)展,在世界舞臺(tái)上發(fā)出更多的中國(guó)聲音,賦能"精準(zhǔn)醫(yī)學(xué)更精準(zhǔn)"。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜