一般選擇ORC+bzip/gzip作為數(shù)據(jù)源的存儲(chǔ),選擇則ORC+Snappy作為中間數(shù)據(jù)的存儲(chǔ),分區(qū)表單文件不大可以采用gzip壓縮,桶表需要用bzip或lzo支持分片的方式壓縮
設(shè)置壓縮建表時(shí)指定"stored as orc tblproperties ("orc.compress"="gzip")"
設(shè)置set hive.exec.compress.intermediate=true開(kāi)啟中間數(shù)據(jù)壓縮
然后設(shè)置mapred.map.output.compression.codec指定中間數(shù)據(jù)的壓縮方式
設(shè)置 set hive.exec.compress.output=true 開(kāi)啟輸出文件壓縮
然后設(shè)置 mapred.output.compression.codec 指定輸出文件的壓縮方式。