大數(shù)據(jù)的屬性是什么?怎么劃分?有大數(shù)據(jù)是令人興奮的,但在實(shí)踐中處理大數(shù)據(jù)存在一定的困難。如果數(shù)據(jù)量太大,就會(huì)變得更加困難。為了處理大數(shù)據(jù),使用了高性能的算法,這些算法也表現(xiàn)出了驚人的優(yōu)勢(shì)。數(shù)據(jù)通常由矩陣表示,其中行代表不同的項(xiàng)目或記錄,列代表這些項(xiàng)目的不同屬性。例如,在美國(guó)的一個(gè)城市數(shù)據(jù)集中,每一行代表一個(gè)城市,每一列代表州、人口和地區(qū)等特征。
大數(shù)據(jù)的屬性是什么?
一、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)
一些數(shù)據(jù)集結(jié)構(gòu)良好,例如數(shù)據(jù)庫(kù)中的表格或電子表格程序。其他數(shù)據(jù)以更多樣化的形式記錄有關(guān)世界狀況的信息。它們可能是帶有圖像和超鏈接的文本語料庫(kù),如維基百科,或者是出現(xiàn)在個(gè)人醫(yī)療記錄中的注釋和測(cè)試結(jié)果的復(fù)雜組合。
數(shù)據(jù)通常由矩陣表示,其中行代表不同的項(xiàng)目或記錄,列代表這些項(xiàng)目的不同屬性。例如,在美國(guó)的一個(gè)城市數(shù)據(jù)集中,每一行代表一個(gè)城市,每一列代表州、人口和地區(qū)等特征。
面對(duì)非結(jié)構(gòu)化數(shù)據(jù)源時(shí),我們通常會(huì)從構(gòu)造一個(gè)矩陣開始,對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化。詞袋模型可以構(gòu)造一個(gè)矩陣,每條推文對(duì)應(yīng)矩陣中的一行,每個(gè)常用詞對(duì)應(yīng)矩陣中的一列。矩陣條目 M[i, j] 表示推文 i 中單詞 j 的出現(xiàn)次數(shù)。
二、定量數(shù)據(jù)與分類數(shù)據(jù)
定量數(shù)據(jù)由身高、體重等數(shù)值組成。這些數(shù)據(jù)可以直接帶入代數(shù)公式和數(shù)學(xué)模型,或用傳統(tǒng)圖表表示。相比之下,分類數(shù)據(jù)由描述受訪者屬性的標(biāo)簽組成,例如性別、頭發(fā)顏色和職業(yè)。這種描述性信息可以像數(shù)字?jǐn)?shù)據(jù)一樣精確和有意義,但不能以相同的方式處理。
分類數(shù)據(jù)通??梢赃M(jìn)行數(shù)字編碼。例如,性別可以表示為男性=0 或女性=1。但是如果每個(gè)特征包含兩個(gè)以上的字符,事情就會(huì)變得更加復(fù)雜,尤其是當(dāng)它們之間沒有隱含的順序時(shí)。我們可以對(duì)頭發(fā)的顏色進(jìn)行數(shù)字編碼,即為不同的顏色匹配不同的值,比如灰發(fā)=0、紅發(fā)=1,金發(fā)=2。但是,除了純粹用于特征識(shí)別之外,我們不能真正將這些值視為數(shù)字。討論最大或最小頭發(fā)顏色有什么意義?以及如何解釋我的頭發(fā)顏色減去你的頭發(fā)顏色的含義?
三、大數(shù)據(jù)與小數(shù)據(jù)
在大眾眼中,數(shù)據(jù)科學(xué)與大數(shù)據(jù)相混淆,大數(shù)據(jù)分析計(jì)算機(jī)日志和傳感器設(shè)備生成的海量數(shù)據(jù)集。原則上,數(shù)據(jù)多總比數(shù)據(jù)少好,因?yàn)槿绻斜匾?,可以通過抽樣丟棄其中的一部分,從而產(chǎn)生更小的數(shù)據(jù)集。
擁有大數(shù)據(jù)令人興奮。但在實(shí)踐中,處理大數(shù)據(jù)存在一定的困難。一般來說,一旦數(shù)據(jù)量變得太大,事情就會(huì)變得更加困難。大數(shù)據(jù)挑戰(zhàn)包括:
一個(gè)分析周期所花費(fèi)的時(shí)間隨著數(shù)據(jù)的大小而增長(zhǎng):隨著數(shù)據(jù)大小的增加,對(duì)數(shù)據(jù)集的計(jì)算操作花費(fèi)的時(shí)間更長(zhǎng)。電子表格可以提供即時(shí)響應(yīng),允許用戶進(jìn)行實(shí)驗(yàn)測(cè)試并驗(yàn)證各種假設(shè)。但是在計(jì)算大型電子表格時(shí),它變得笨重且緩慢。處理大型數(shù)據(jù)集可能需要數(shù)小時(shí)或數(shù)天才能獲得結(jié)果。為了處理大數(shù)據(jù),必須使用高性能的算法,而這些算法也表現(xiàn)出了驚人的優(yōu)勢(shì)。但切勿將大數(shù)據(jù)拆分為小數(shù)據(jù)以加快計(jì)算速度。
大型數(shù)據(jù)集的復(fù)雜可視化:在計(jì)算機(jī)屏幕或打印圖像上繪制大數(shù)據(jù)中的所有數(shù)百萬個(gè)點(diǎn)是不可能的,更不用說對(duì)數(shù)據(jù)進(jìn)行概念性理解了。我們不能希望深入了解根本看不到的東西。
簡(jiǎn)單的模型不需要大量數(shù)據(jù)來擬合或評(píng)估:典型的數(shù)據(jù)科學(xué)任務(wù)是根據(jù)一小組變量做出決策,例如年齡、性別、身高、體重和現(xiàn)有的醫(yī)療水平,以決定是否保險(xiǎn) 人們提供人壽保險(xiǎn)。
如果有 100 萬人的生活相關(guān)數(shù)據(jù),應(yīng)該可以建立一個(gè)保險(xiǎn)覆蓋率好的通用模型。但當(dāng)數(shù)據(jù)量擴(kuò)大到千萬人時(shí),可能就不再起到優(yōu)化模型的作用了?;谝恍┳兞浚ɡ缒挲g和婚姻狀況)的決策標(biāo)準(zhǔn)在涵蓋大量投保人數(shù)據(jù)時(shí)不能過于復(fù)雜并且顯得穩(wěn)健。不易被發(fā)現(xiàn)的發(fā)現(xiàn),無論數(shù)據(jù)量大小,都需要熟練地獲取大量數(shù)據(jù)。
大數(shù)據(jù)有時(shí)被稱為壞數(shù)據(jù)。它們是作為現(xiàn)有系統(tǒng)或程序的副產(chǎn)品收集的,并不是為了回答我們手頭設(shè)計(jì)的問題。這使得我們有可能僅僅因?yàn)槲覀冇袛?shù)據(jù)就不得不努力解釋一些現(xiàn)象。
總統(tǒng)候選人如何從分析選民偏好中受益?大數(shù)據(jù)方法可能會(huì)分析 Twitter 或 Facebook 上的大量網(wǎng)絡(luò)數(shù)據(jù),并從文本中推斷選民的意見。另一方面,小數(shù)據(jù)方法涉及民意調(diào)查,向數(shù)百人詢問特定問題并將結(jié)果制成表格。哪種方法更準(zhǔn)確?正確的數(shù)據(jù)集與要完成的任務(wù)直接相關(guān),不一定是數(shù)量最多的數(shù)據(jù)集。
以上是大數(shù)據(jù)的屬性是什么以及如何劃分的相關(guān)要少,小編建議不要盲目地渴望分析大型數(shù)據(jù)集。尋找正確的數(shù)據(jù)來回答給定的問題,而不是做不需要參與的“大事”。更多關(guān)于“大數(shù)據(jù)培訓(xùn)”的問題,歡迎咨詢千鋒教育在線名師。千鋒教育多年辦學(xué),課程大綱緊跟企業(yè)需求,更科學(xué)更嚴(yán)謹(jǐn),每年培養(yǎng)泛IT人才近2萬人。不論你是零基礎(chǔ)還是想提升,都可以找到適合的班型,千鋒教育隨時(shí)歡迎你來試聽。