1、系統(tǒng)日志采集方法
許多企業(yè)都有自己的海量數(shù)據(jù)采集工具,主要用于系統(tǒng)日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等。該系統(tǒng)采用分布式結(jié)構(gòu),可以滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需要,例如,Scribe是Facebook開放源碼的日志采集系統(tǒng),可以從各種日志源中收集日志,可以存儲在一個(gè)中央存儲系統(tǒng)(可以是NFS,可以是分布式文件系統(tǒng)等)上,這樣就可以方便地進(jìn)行集中統(tǒng)計(jì)分析處理,為日志的分布式采集,統(tǒng)一處理提供一個(gè)可擴(kuò)展的,高容錯(cuò)的方案。
2、網(wǎng)絡(luò)數(shù)據(jù)采集方法
網(wǎng)絡(luò)數(shù)據(jù)采集是指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API從網(wǎng)站上獲取數(shù)據(jù)信息。
該方法可以從網(wǎng)頁中提取非結(jié)構(gòu)化數(shù)據(jù),并將其存儲為統(tǒng)一的本地?cái)?shù)據(jù)文件,并結(jié)構(gòu)化存儲。
該支持圖片、音頻、視頻等文件或附件的收集,附件可以自動與文本相關(guān)聯(lián)。
3、其他數(shù)據(jù)采集方法
對企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可通過與企業(yè)或研究機(jī)構(gòu)合作,采用特定的系統(tǒng)接口等方式收集。
以上就是大數(shù)據(jù)采集方法的介紹,對于目前的企業(yè)來說,在三種采集數(shù)據(jù)的方法上都會有所涉及,我們個(gè)人采集數(shù)據(jù)也不妨嘗試下這類的使用。更多關(guān)于大數(shù)據(jù)培訓(xùn)的問題,歡迎咨詢千鋒教育在線名師。千鋒教育擁有多年IT培訓(xùn)服務(wù)經(jīng)驗(yàn),采用全程面授高品質(zhì)、高體驗(yàn)培養(yǎng)模式,擁有國內(nèi)一體化教學(xué)管理及學(xué)員服務(wù),助力更多學(xué)員實(shí)現(xiàn)高薪夢想。