Hadoop 是一個開源的分布式計算框架,最初是由 Apache 軟件基金會開發(fā)的。Hadoop 最初的設(shè)計目的是為了解決海量數(shù)據(jù)的存儲和處理問題,它能夠?qū)⒋髷?shù)據(jù)分成多個部分存儲在不同的計算節(jié)點上,并將計算任務(wù)分發(fā)給各個節(jié)點進(jìn)行并行處理,從而提高數(shù)據(jù)的處理效率。Hadoop 由 Hadoop Distributed File System(HDFS)、MapReduce 和 Yet Another Resource Negotiator(YARN)等多個組件構(gòu)成,它們協(xié)同工作,提供了一種高效、可靠、可擴(kuò)展的數(shù)據(jù)處理方案,廣泛應(yīng)用于各種大數(shù)據(jù)場景。Hadoop 的名稱來自于它的創(chuàng)始人 Doug Cut 的兒子玩具大象的名字。
hive外部表是使用external關(guān)鍵字并指定一個hdfs目錄創(chuàng)建的表。hive內(nèi)部表在創(chuàng)建時會在對應(yīng)hive目錄下創(chuàng)建相應(yīng)的文件夾,外部表則以指定文件夾為...詳情>>
2022-09-02 17:21:00Checkpoint是為runtime準(zhǔn)備的,Savepoint 是為用戶準(zhǔn)備的。Checkpoint 機(jī)制的目標(biāo)在于保證Flink作業(yè)意外崩潰重啟不影響exactly once 準(zhǔn)確性,通...詳情>>
2022-09-02 16:59:22State:指一個具體的Task/Operator的狀態(tài)。State可以被記錄,在失敗的情況下數(shù)據(jù)還可以恢復(fù),F(xiàn)link中有兩種基本類型的State: Keyed State, Op...詳情>>
2022-09-02 16:59:19Flink 內(nèi)部是基于producer-consumer模型來進(jìn)行消息傳遞的,F(xiàn)link的反壓設(shè)計也是基于這個模型。Flink 使用了高效有界的分布式阻塞隊列,就像 Jav...詳情>>
2022-09-02 16:59:16雖說水位線(Watermark)表明早于它的事件不應(yīng)該再出現(xiàn),但是接收到水位線以前的的消息是不可避免的,這就是所謂的遲到事件。實際上遲到事件是亂...詳情>>
2022-09-02 16:59:00