亚洲国产一区二区在线,成人速播影院在线播放免费,91天堂嫩模在线播放,国产高清在线精品免费

分享到:

陳尚義:百度大數(shù)據(jù)存儲和處理取得多項成果

09-01月-2012
 

  中國非結(jié)構(gòu)化數(shù)據(jù)管理高峰論壇(CUDMS 2011)昨日在京舉行,百度技術(shù)總監(jiān)陳尚義在會上向與會的專家學者展示了百度在大數(shù)據(jù)存儲和處理上取得的成果,并闡釋了百度未來在大數(shù)據(jù)上的一些思考。

    據(jù)了解,作為互聯(lián)網(wǎng)公司,百度每天面對海量數(shù)據(jù)。其每天收集幾千億網(wǎng)頁,系統(tǒng)每天都產(chǎn)生海量日志,其容量達到百PB級,需要數(shù)萬臺服務器存儲,這還不算用戶在使用百度產(chǎn)品中自己生成的內(nèi)容(UGC)和百度客戶的數(shù)據(jù),這部分數(shù)據(jù)加起來就有幾個PB,僅這些數(shù)據(jù)就比傳統(tǒng)企業(yè)的大上成千上萬倍。并且隨著網(wǎng)頁資源增加和搜索質(zhì)量提升,網(wǎng)頁和超鏈數(shù)據(jù)將隨之急劇增加。

  陳尚義表示,百度數(shù)據(jù)呈現(xiàn)海量、高增長,結(jié)構(gòu)化和非結(jié)構(gòu)化大量并存,記錄大小差距巨大,數(shù)據(jù)一致性強弱不一,數(shù)據(jù)冷熱不均,突發(fā)事件常導致數(shù)據(jù)訪問波峰等特點。

  與此同時,百度業(yè)務對數(shù)據(jù)存儲和處理提出極高要求。要求數(shù)據(jù)高可用、高可靠、高通量、高時效、高并發(fā)、高可擴展(簡稱“六高”),要求百度的數(shù)據(jù)存儲能力和處理能力必須以非常簡單的方式獲得擴容,以降低維護升級的代價。

  陳尚義稱,面對這些特點和要求,百度必須開發(fā)自己的大數(shù)據(jù)存儲系統(tǒng)。在百度最早上線數(shù)據(jù)存儲系統(tǒng)時,類似Hadoop和HDFS等開源系統(tǒng)還沒有發(fā)布,而且還由于開源系統(tǒng)的性能受限、無法充分利用機器的各種資源尤其是新硬件(flash/SSD)資源、無法為特定的訪問模式做優(yōu)化、缺乏滿足工業(yè)界的穩(wěn)定性等諸多原因,百度不能使用開源系統(tǒng)。不僅開源的用不上,而且市場上也無現(xiàn)成商業(yè)化產(chǎn)品可供百度使用,因為任何一個廠商都沒有如此海量、如此復雜的數(shù)據(jù)。

  百度一開始就自主開發(fā)了大數(shù)據(jù)存儲系統(tǒng),用于存儲網(wǎng)頁和超鏈、客戶信息和用戶產(chǎn)品、系統(tǒng)日志等海量數(shù)據(jù),支持Table、Pipe、File和KV等數(shù)據(jù)類型,滿足百度業(yè)務的流式和觸發(fā)式計算、文件存儲和訪問、低延遲、高并發(fā)的需求。在此基礎(chǔ)之上,百度還面向廣大網(wǎng)民推出云存儲系統(tǒng),在前不久發(fā)布的百度易手機上,每個用戶可擁有100G的免費存儲空間。

  陳尚義介紹說,為了應對上百PB的數(shù)據(jù),滿足諸多近乎苛刻的要求,百度作出了巨大努力。

  第一,開發(fā)了網(wǎng)頁更新模型,將對磁盤的隨機寫轉(zhuǎn)化為批量的順序?qū)懀蟠筇岣吡藬?shù)據(jù)的寫入速度,縮短了網(wǎng)頁數(shù)據(jù)的更新周期,提高了搜索引擎等產(chǎn)品的時效果性。

  第二,對涉及數(shù)據(jù)存儲和訪問的各個方面進行了全局優(yōu)化。包括:針對訪問模式采用數(shù)據(jù)索引、緩存熱點數(shù)據(jù)、外存預讀、IO緩存等技術(shù)手段,降低在線訪問的延遲,提高系統(tǒng)的吞吐量;針對各種存儲資源的特點,細粒度地發(fā)揮各種資源的優(yōu)勢;對單機硬件進行合理調(diào)配,優(yōu)化CPU、內(nèi)存、硬盤、SSD容量的配比;與CDN結(jié)合,將最常被訪問的、相對靜態(tài)的大數(shù)據(jù)自動緩存到距離用戶最近的數(shù)據(jù)中心。

  第三,定制Flash,使存儲系統(tǒng)直接對Flash的多通道(Multiple Chanel)編程,既提高了并發(fā)性,又提高了存儲資源的容量。

  第四.采取多副本存儲,以提高系統(tǒng)的可靠性和可用性。

  第五,創(chuàng)造性地開發(fā)了自主知識產(chǎn)權(quán)的復制協(xié)議(Replication Protocol)。這個協(xié)議和TCP類似,TCP是基于連接的可靠性傳輸協(xié)議,而Replication Protocol是跨節(jié)點、跨連接的可靠傳輸協(xié)議。

  第六,采取數(shù)據(jù)分治策略,保證數(shù)據(jù)存儲的各個部件可以水平擴展,即通過簡單地增加服務器就可以達到擴展的目的。

  第七,采用拆片存儲技術(shù),避免單機存儲熱點記錄或大記錄所帶來的性能瓶頸。

  第八,運用局部更新大記錄的策略,對于大記錄分塊存儲,只有修改了的塊才被更新,而不是對整個大文件都重寫。這樣極大地節(jié)約數(shù)據(jù)更新的成本。

  第九,采用三層數(shù)據(jù)存儲模型,將熱點數(shù)據(jù)存放于內(nèi)存,較熱的數(shù)據(jù)存放于flash, “冷”數(shù)據(jù)存放于磁盤,針對數(shù)據(jù)訪問的特性充分利用各種資源的優(yōu)勢。

  陳尚義透露,未來,百度還將開發(fā)跨數(shù)據(jù)中心的存儲系統(tǒng),面臨帶寬、通信穩(wěn)定性所帶來的壓力;在數(shù)據(jù)量、吞吐量急劇增大的背景下,不斷提高時效性、一致性、減低延遲、提高并發(fā);在新的Flash/SSD硬件和萬M網(wǎng)絡(luò)的引入、數(shù)據(jù)存儲和處理瓶頸發(fā)生轉(zhuǎn)移的情況下,百度原來積累的存儲體系將面臨變革。


View: 1609

上篇新聞:搜索流量為王 流量才是SEO的核心

下篇新聞:聯(lián)通大屏千元智能機開售 雙待機下調(diào)至中檔市場