加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 話題一、《Hadoop HDFS深度剖析與實(shí)踐》將解決哪些行業(yè)痛點(diǎn)?
    • 話題二:對(duì)當(dāng)下的大數(shù)據(jù)的熱點(diǎn)存儲(chǔ)技術(shù)探討
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

大咖對(duì)談:解析熱點(diǎn)存儲(chǔ)技術(shù),剖析大數(shù)據(jù)行業(yè)痛點(diǎn)

2023/09/08
3626
閱讀需 11 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

在數(shù)據(jù)規(guī)模爆炸式增長(zhǎng)的今天,復(fù)雜的業(yè)務(wù)場(chǎng)景對(duì)數(shù)據(jù)的使用提出了更高的要求,數(shù)據(jù)需具備良好的容錯(cuò)能力,集群服務(wù)應(yīng)擁有健壯的穩(wěn)定性。Hadoop HDFS自誕生至今,一直都是大數(shù)據(jù)領(lǐng)域事實(shí)上的分布式存儲(chǔ)基座,已經(jīng)得到眾多企業(yè)支持,包括Cloudera、Uber、騰訊、美團(tuán)、京東等。據(jù)了解,不少生產(chǎn)環(huán)境集群節(jié)點(diǎn)達(dá)到萬(wàn)臺(tái)以上,可以輕松應(yīng)對(duì)多場(chǎng)景業(yè)務(wù)類型的訪問(wèn)。

任何事物除了關(guān)注其本身特性,還有必要了解其發(fā)展歷史。從發(fā)展歷史中了解其內(nèi)在邏輯,對(duì)于更好地理解事物很有裨益。作為一款非常受歡迎的分布式存儲(chǔ)產(chǎn)品,HDFS和分布式及文件系統(tǒng)很有淵源。分布式文件系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)包含內(nèi)容復(fù)雜,為了推動(dòng)行業(yè)向前發(fā)展,幫助從業(yè)人員和熱愛(ài)分布式技術(shù)的開發(fā)者對(duì)分布式文件系統(tǒng)有更深層次的了解,機(jī)械工業(yè)出版社于2023年8月,邀請(qǐng)祝江華 董西成 賀小橋?陳昱康四位大數(shù)據(jù)專家為大家?guī)?lái)的專題分享會(huì),分享會(huì)上四位專家圍繞技術(shù)熱點(diǎn)和行業(yè)痛點(diǎn)展開分享,干貨滿滿,獲得了廣大參會(huì)開發(fā)者的一致好評(píng)。

在近期的一系列文章中,小編將為大家復(fù)盤四位專家的精彩觀點(diǎn)和行業(yè)洞見(jiàn),沒(méi)能參會(huì)的小伙伴們,不要錯(cuò)過(guò)?。?/p>

PART1:嘉賓介紹

祝江華,大數(shù)據(jù)技術(shù)專家《Hadoop HDFS深度剖析與實(shí)踐》作者

董西成,快手?jǐn)?shù)據(jù)平臺(tái)產(chǎn)品&研發(fā)負(fù)責(zé)人,《Hadoop技術(shù)內(nèi)幕》作者

賀小橋,Apache member,Apache Hadoop PMC member

昱康,B站離線平臺(tái)負(fù)責(zé)人

PART2:精彩回顧

話題一、《Hadoop HDFS深度剖析與實(shí)踐》將解決哪些行業(yè)痛點(diǎn)?

祝江華:當(dāng)前,行業(yè)在發(fā)展過(guò)程中存在一些痛點(diǎn),我認(rèn)為有三部分是非常重要。

第一部分是:近幾年,大數(shù)據(jù)技術(shù)發(fā)展迅速,尤其是計(jì)算方向先后出現(xiàn)了很多優(yōu)秀的產(chǎn)品與技術(shù)迭代,比如流式處理,強(qiáng)悍的分析引擎等等。當(dāng)下大數(shù)據(jù),整個(gè)鏈路其實(shí)是離不開存儲(chǔ)這一塊,因此也需要進(jìn)一步推動(dòng)存儲(chǔ)技術(shù)的進(jìn)步。這樣對(duì)整個(gè)行業(yè)產(chǎn)業(yè)都是很有利處的。

第二部分是:現(xiàn)在無(wú)論是大公司還是小公司,從數(shù)倉(cāng)平臺(tái)到底層的基礎(chǔ)設(shè)施,大數(shù)據(jù)平臺(tái)的建設(shè)都普遍現(xiàn)象。雖然現(xiàn)在搭建大數(shù)據(jù)平臺(tái)更加方便了,但是想要建設(shè)一個(gè)非常成功的大數(shù)據(jù)平臺(tái)并非易事。這其中要注意的內(nèi)容非常多,尤其是存儲(chǔ)板塊,因此,需要我們本著促進(jìn)行業(yè)發(fā)展的目的,相互交流,彼此碰撞,才能使整個(gè)行業(yè)得到良好的發(fā)展。

第三部分是:HDFS依然是行業(yè)內(nèi)建設(shè)大數(shù)據(jù)過(guò)程中采用的主流基礎(chǔ)設(shè)施,目前仍然有很多開發(fā)者對(duì)這一產(chǎn)品所包含的理念和技術(shù)存在理解不到位。

既然我們提到了當(dāng)前行業(yè)內(nèi)存在的痛點(diǎn),所以。我在這里想聊一下《Hadoop HDFS深度剖析與實(shí)踐》這本書,能為行業(yè)能給我?guī)?lái)什么?

第一方面:這本書體系化的系統(tǒng)介紹了相關(guān)知識(shí)點(diǎn),希望能夠促進(jìn)存儲(chǔ)技術(shù)的發(fā),特別是在基礎(chǔ)層面,從而促進(jìn)行業(yè)的發(fā)展。

第二方面:對(duì)一些需要幫助的開發(fā)者,特別是對(duì)分布式存儲(chǔ),云計(jì)算以及分布式技術(shù)感興趣的開發(fā)者提供一些力所能及的幫助。

第三方面:分享一些個(gè)人心得給同行。

話題二:對(duì)當(dāng)下的大數(shù)據(jù)的熱點(diǎn)存儲(chǔ)技術(shù)探討

祝江華:當(dāng)前在整個(gè)大數(shù)據(jù)領(lǐng)域,可以說(shuō)存儲(chǔ)是不得不存在的方向。現(xiàn)在我們大數(shù)據(jù)業(yè)界對(duì)存儲(chǔ)的定位和認(rèn)識(shí)是怎樣的?當(dāng)下對(duì)于HDFS在行業(yè)內(nèi)的一個(gè)地位是怎樣的?這兩個(gè)問(wèn)題,相信董西城老師會(huì)有更獨(dú)到的理解,供我們大家學(xué)習(xí)一下。

董西成:我簡(jiǎn)單談一下我對(duì)存儲(chǔ)的理解!存儲(chǔ)技術(shù),我覺(jué)得是大數(shù)據(jù)領(lǐng)域比較難的技術(shù)!包括它對(duì)技術(shù)的要求,對(duì)可靠性,穩(wěn)定性等方面的要求還是很高的。

存儲(chǔ)技術(shù)涉及的范圍也是很廣的,包括結(jié)構(gòu)化,非結(jié)構(gòu)化存儲(chǔ)。這是非常重要,比如說(shuō)結(jié)構(gòu)化存儲(chǔ),大家都熟悉的關(guān)系型數(shù)據(jù)庫(kù)MySQL,Oracle等等;非結(jié)構(gòu)化數(shù)據(jù),包括,比如說(shuō)我們今天重點(diǎn)提到的文件存儲(chǔ)HDFS。整個(gè)存儲(chǔ)這個(gè)領(lǐng)域。所以整個(gè)存儲(chǔ)這個(gè)領(lǐng)域涉及的范圍,非常之廣。并且針對(duì)不同的場(chǎng)景,現(xiàn)在存儲(chǔ)體系也是有所差異。這是從存儲(chǔ)分類上來(lái)看。

從另外一個(gè)視角,從穩(wěn)定性,成本性能方面也有不同的劃分方式,但整體上HDFS目前仍然是在大數(shù)據(jù)領(lǐng)域非常重要的一個(gè)系統(tǒng)。包括就是比如說(shuō)在快手、字節(jié)、美團(tuán)等等相當(dāng)多的公司,尤其是內(nèi)部,這種自建的整個(gè)大數(shù)據(jù)體系,HDFS仍然是最主流的存儲(chǔ)系統(tǒng)之一。

所以我覺(jué)得江華寫的這本《Hadoop HDFS深度剖析與實(shí)踐》其實(shí)也是能夠切中我們對(duì)當(dāng)下熱點(diǎn)以及主流方向的痛點(diǎn)和需求。

祝江華:業(yè)界對(duì)存儲(chǔ)的定位和認(rèn)識(shí)是怎樣的?當(dāng)下對(duì)于HDFS在行業(yè)內(nèi)的一個(gè)地位是怎樣的?請(qǐng)喬總分享一些自己的觀點(diǎn)。

賀小喬:因?yàn)槲沂枪ぷ鞯闹饕较蛟陔x線存儲(chǔ)方向,我重點(diǎn)就是聊一聊我對(duì)離線存儲(chǔ)的理解。在我看來(lái),不管是從大數(shù)據(jù)生態(tài)來(lái)看,還是說(shuō)從其他的體系來(lái)看的話,存儲(chǔ)其實(shí)都是最重要,也是最基礎(chǔ)的。從之前傳統(tǒng)的素材業(yè)務(wù),到最近除了傳統(tǒng)的素材業(yè)務(wù)之外,還有一些機(jī)器學(xué)習(xí),類似這種新興的業(yè)務(wù)的研究,對(duì)存儲(chǔ)的需求可能提出了一些更高的要求。比如說(shuō)。這個(gè)需要有無(wú)限接近的資源供給,高吞吐低時(shí)延,還有可靠性或者是低成本等等,這些都有一些更高的要求。

HDFS雖然不能特別完美的能解決方方面面的問(wèn)題,但是從我的實(shí)踐經(jīng)驗(yàn)來(lái)看,HDFS在整個(gè)大數(shù)據(jù)領(lǐng)域里面,其實(shí)還是一個(gè)比較關(guān)鍵或者是核心的方向,主要我理解還是從幾個(gè)方面展開:第一,因?yàn)镠adoop的生態(tài)相對(duì)還算比較成熟,而且這個(gè)包括周邊的各種配套的工具體系,經(jīng)過(guò)多年的大規(guī)模生產(chǎn)實(shí)踐驗(yàn)證,其實(shí)已經(jīng)相當(dāng)成熟了。第二,我認(rèn)為從很多生態(tài)來(lái)看,HDFS還是在持續(xù)的發(fā)展和演進(jìn)過(guò)程中。所以整體來(lái)看,HDFS還是在處在一個(gè)不錯(cuò)的方向上。

祝江華:在當(dāng)下大數(shù)據(jù)平臺(tái)建設(shè)和使用過(guò)程中,對(duì)于數(shù)據(jù)的管理非常重要,數(shù)據(jù)種類很多,例如json,log文件,表數(shù)據(jù)等,本質(zhì)上他們都是規(guī)則不一,類型不固定的文件,一款優(yōu)秀的分布式文件存儲(chǔ)系統(tǒng),主要的核心模塊和架構(gòu)應(yīng)該是怎樣的?

陳昱康:對(duì)于這一點(diǎn),在《Hadoop HDFS深度剖析與實(shí)踐》有很多詳細(xì)的介紹。我簡(jiǎn)單講一下我自己的理解。

首先可以肯定元數(shù)據(jù)管理模塊其實(shí)是非常重要的,因?yàn)樵獢?shù)據(jù)是維護(hù)了整個(gè)文件的數(shù)據(jù)信息,我們需要支持一個(gè)高效的數(shù)據(jù)查詢和索引的能力。

另外我認(rèn)為比較重要是對(duì)數(shù)據(jù)的存儲(chǔ)引擎,HDFS作為一款支持高吞吐,低延遲的數(shù)據(jù)寫入和讀取存儲(chǔ)引擎,對(duì)底層的數(shù)據(jù)的一些編碼,包括Check的一些保證,都做的非常不錯(cuò)。

第三點(diǎn)是涉及生產(chǎn)環(huán)境,我們需要有一個(gè)比較好的訪問(wèn)控制,包括安全性,多租戶等這些的能力,另外還包括例如權(quán)限等的一些的能力,進(jìn)一步的話對(duì)數(shù)據(jù)上面還會(huì)做一些透明的加密,這一塊其實(shí)在HDFS上面也有很好的保障。

第四點(diǎn)我想談一下,HDFS系統(tǒng)的擴(kuò)展能力,它能夠支持比較好的動(dòng)態(tài)集群擴(kuò)展的能力。包括性能和容量等方面,來(lái)適應(yīng)不斷增長(zhǎng)的數(shù)據(jù)需求,我們現(xiàn)在生產(chǎn)的數(shù)據(jù)量級(jí)更高,那需要有非常強(qiáng)的擴(kuò)展能力才可以承擔(dān)一個(gè)大規(guī)模數(shù)據(jù)的存儲(chǔ),同時(shí)也需要搭配很好的數(shù)據(jù)遷移,數(shù)據(jù)清理以及利用率等。

董西成:對(duì)于分布式存儲(chǔ)系統(tǒng),類型很多,它們的架構(gòu)各不相同,從整體上來(lái)講的話,有主從架構(gòu),比如HDFS就是這種典型主從架構(gòu),這種架構(gòu)比較簡(jiǎn)單,設(shè)計(jì)起來(lái)也比較容易去實(shí)現(xiàn)。

還有類似去中心化的這種架構(gòu)。這種架構(gòu)沒(méi)有單點(diǎn)問(wèn)題,當(dāng)然它也會(huì)帶來(lái)其他的問(wèn)題,我們重點(diǎn)介紹主從架構(gòu)。

不同系統(tǒng)架構(gòu)設(shè)計(jì),雖然有共性,但是這里特別強(qiáng)調(diào)他們還是有不一樣的地方。比如主從架構(gòu),從控制節(jié)點(diǎn),存儲(chǔ)節(jié)點(diǎn),通信機(jī)制,還有一系列的輔助能力,例如安全加密,面臨的單點(diǎn)問(wèn)題和擴(kuò)展性問(wèn)題等等,在《Hadoop HDFS深度剖析與實(shí)踐》里面也寫到了對(duì)于超大規(guī)模的主從架構(gòu)的解決方案,包括在基礎(chǔ)層面對(duì)元數(shù)據(jù)進(jìn)行橫向的切分,形成多個(gè)Master和子集群,基于這些基礎(chǔ),再構(gòu)建虛擬層,然后對(duì)外屏蔽底層的構(gòu)建,以此來(lái)解決大規(guī)模存儲(chǔ)下擴(kuò)展性的問(wèn)題。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
KSZ8895RQI 1 Micrel Inc Ethernet Transceiver, CMOS, PQFP128, LEAD FREE, PLASTIC, QFP-128
暫無(wú)數(shù)據(jù) 查看
ADM3053BRWZ-REEL7 1 Analog Devices Inc Signal and Power Isolated CAN Transceiver with Integrated Isolated DC-to-DC Converter

ECAD模型

下載ECAD模型
$12.3 查看
KSZ9031RNXVA-TR 1 Microchip Technology Inc Ethernet Transceiver
暫無(wú)數(shù)據(jù) 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜