要說大數(shù)據(jù)基礎(chǔ)學(xué)什么,內(nèi)容就多了,但其實(shí)很多內(nèi)容都是其他方向的技術(shù),在大數(shù)據(jù)的實(shí)際工作中運(yùn)用的并不多,我們只需要作為了解就可以了,否則會(huì)浪費(fèi)大量時(shí)間顧此失彼、得不償失。下面來詳細(xì)介紹:
大數(shù)據(jù)基礎(chǔ)學(xué)習(xí)內(nèi)容:
離線數(shù)倉:
Java、MySQL、Maven、Git、OpenResty、Linux、Shell、HDFS、YARN、Zookeeper、MapReduce、Scala、Python、SparkCore、Hive、SparkSQL、Presto、Sqoop、DataX、Flume、CDH、數(shù)倉架構(gòu)、維度建模、SuperSet、Azkaban、Airflow等。掌握企業(yè)級(jí)基建環(huán)境部署、Hive和Spark數(shù)據(jù)開發(fā)、數(shù)據(jù)倉庫搭建、數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載、數(shù)據(jù)應(yīng)用
實(shí)時(shí)倉庫:
Kafka、Structured Streaming、Hudi、Canal、Flink、ClickHouse、HBase、Phoenix、Elasticsearch、Redis
Linux:
因?yàn)榇髷?shù)據(jù)相關(guān)軟件都是在Linux上運(yùn)行的,所以Linux要學(xué)習(xí)的扎實(shí)一些,學(xué)好Linux對(duì)你快速掌握大數(shù)據(jù)相關(guān)技術(shù)會(huì)有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數(shù)據(jù)軟件的運(yùn)行環(huán)境和網(wǎng)絡(luò)環(huán)境配置,學(xué)會(huì)shell就能看懂腳本這樣能更容易理解和配置大數(shù)據(jù)集群。還能讓你對(duì)以后新出的大數(shù)據(jù)技術(shù)學(xué)習(xí)起來更快。
以上是大數(shù)據(jù)所需要掌握的技術(shù)點(diǎn),最終的實(shí)踐項(xiàng)目還需要掌握數(shù)據(jù)采集與監(jiān)控平臺(tái)、準(zhǔn)實(shí)時(shí)數(shù)據(jù)倉庫、用戶畫像、推薦系統(tǒng)、基于Flink的實(shí)時(shí)數(shù)據(jù)倉庫、元數(shù)據(jù)管理與數(shù)據(jù)治理。以上暫且作為了解即可。
上述是大數(shù)據(jù)基礎(chǔ)所要了解的全部?jī)?nèi)容,但學(xué)習(xí)大數(shù)據(jù),其實(shí)只需要學(xué)習(xí)Java的標(biāo)準(zhǔn)版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技術(shù)在大數(shù)據(jù)技術(shù)里用到的并不多,只需要了解就可以了,當(dāng)然Java怎么連接數(shù)據(jù)庫還是要知道的,像JDBC一定要掌握一下。Hibernate或Mybites也能連接數(shù)據(jù)庫,不是說學(xué)這些不好,而是說學(xué)這些可能會(huì)用掉很多時(shí)間,到最后實(shí)際工作中用到的比例也很少。
大數(shù)據(jù)基礎(chǔ)學(xué)什么?雖然看起來內(nèi)容很多,但有一些只是需要我們了解即可,如果選擇一家靠譜的培訓(xùn)機(jī)構(gòu),一步一步跟著老師的節(jié)奏學(xué)習(xí),多問多思考,學(xué)成大數(shù)據(jù)也是不難的。如果你對(duì)大數(shù)據(jù)培訓(xùn)有興趣,歡迎隨時(shí)咨詢千鋒教育!