成人免费看黄网站无遮挡,caowo999,se94se欧美综合色,a级精品九九九大片免费看,欧美首页,波多野结衣一二三级,日韩亚洲欧美综合

<noframes id="2m4uq"><tr id="2m4uq"></tr>

<xmp id="2m4uq">

大數據知識點(diǎn)總結

時(shí)間：2021-03-31 08:23:35 總結我要投稿

大數據知識點(diǎn)總結

　　導語(yǔ)：原始數據要經(jīng)過(guò)一連串收集、提取、清洗、整理等等的預處理過(guò)程，才能形成高質(zhì)量的數據；按照自己的需要，比如要對數據貼標簽分類(lèi)，或者預測，或者想要從大量復雜的數據中提取有價(jià)值的且不易發(fā)現的信息，下面由小編為您整理出的大數據知識點(diǎn)總結內容，一起來(lái)看看吧。

大數據知識點(diǎn)總結

　　1、Hadoop是一個(gè)由Apache基金會(huì )所開(kāi)發(fā)的分布式系統基礎架構。

　　用戶(hù)可以在不了解分布式底層細節的情況下，開(kāi)發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運算和存儲。

　　2、Hadoop實(shí)現了一個(gè)分布式文件系統（Hadoop Distributed File System），簡(jiǎn)稱(chēng)HDFS。HDFS有高容錯性的特點(diǎn)，并且設計用來(lái)部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來(lái)訪(fǎng)問(wèn)應用程序的數據，適合那些有著(zhù)超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪(fǎng)問(wèn)（streaming access）文件系統中的數據。

　　3、Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，則MapReduce為海量的數據提供了計算。

　　4、Hadoop它主要有以下幾個(gè)優(yōu)點(diǎn)：

　　(a)高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴(lài)。

　　(b)高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務(wù)的，這些集簇可以方便地擴展到數以千計的節點(diǎn)中。

　　(c)高效性。Hadoop能夠在節點(diǎn)之間動(dòng)態(tài)地移動(dòng)數據，并保證各個(gè)節點(diǎn)的動(dòng)態(tài)平衡，因此處理速度非�？�。

　　(d)高容錯性。Hadoop能夠自動(dòng)保存數據的多個(gè)副本，并且能夠自動(dòng)將失敗的任務(wù)重新分配。

　　(e)低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開(kāi)源的，項目的軟件成本因此會(huì )大大降低。

　　5、HDFS

　　對外部客戶(hù)機而言，HDFS就像一個(gè)傳統的分級文件系統�？梢詣�(chuàng )建、刪除、移動(dòng)或重命名文件，等等。但是 HDFS 的架構是基于一組特定的節點(diǎn)構建的，這是由它自身的特點(diǎn)決定的。這些節點(diǎn)包括 NameNode（僅一個(gè)），它在 HDFS 內部提供元數據服務(wù)；DataNode，它為 HDFS 提供存儲塊。由于僅存在一個(gè) NameNode，因此這是 HDFS 的一個(gè)缺點(diǎn)（單點(diǎn)失�。�。

　　存儲在 HDFS 中的文件被分成塊，然后將這些塊復制到多個(gè)計算機中（DataNode）。這與傳統的 RAID 架構大不相同。塊的大�。ㄍǔ� 64MB）和復制的塊數量在創(chuàng )建文件時(shí)由客戶(hù)機決定。NameNode 可以控制所有文件操作。HDFS 內部的所有通信都基于標準的 TCP/IP 協(xié)議。

　　6、NameNode

　　NameNode 是一個(gè)通常在 HDFS 實(shí)例中的單獨機器上運行的軟件。它負責管理文件系統名稱(chēng)空間和控制外部客戶(hù)機的訪(fǎng)問(wèn)。NameNode 決定是否將文件映射到 DataNode 上的復制塊上。對于最常見(jiàn)的 3 個(gè)復制塊，第一個(gè)復制塊存儲在同一機架的不同節點(diǎn)上，最后一個(gè)復制塊存儲在不同機架的某個(gè)節點(diǎn)上。

　　NameNode本身不可避免地具有SPOF（Single Point Of Failure）單點(diǎn)失效的風(fēng)險，主備模式并不能解決這個(gè)問(wèn)題，通過(guò)Hadoop Non-stop namenode才能實(shí)現100% uptime可用時(shí)間。

　　7、DataNode

　　DataNode 也是一個(gè)通常在 HDFS實(shí)例中的單獨機器上運行的軟件。Hadoop 集群包含一個(gè) NameNode 和大量 DataNode。DataNode 通常以機架的形式組織，機架通過(guò)一個(gè)交換機將所有系統連接起來(lái)。Hadoop 的一個(gè)假設是：機架內部節點(diǎn)之間的傳輸速度快于機架間節點(diǎn)的傳輸速度。

　　DataNode 響應來(lái)自 HDFS 客戶(hù)機的讀寫(xiě)請求。它們還響應來(lái)自 NameNode 的創(chuàng )建、刪除和復制塊的命令。NameNode 依賴(lài)來(lái)自每個(gè) DataNode 的定期心跳（heartbeat）消息。每條消息都包含一個(gè)塊報告，NameNode 可以根據這個(gè)報告驗證塊映射和其他文件系統元數據。如果 DataNode 不能發(fā)送心跳消息，NameNode 將采取修復措施，重新復制在該節點(diǎn)上丟失的塊。

　　8、集群系統

　　Google的數據中心使用廉價(jià)的Linux PC機組成集群，在上面運行各種應用。核心組件是3個(gè)：

　　(a)GFS（Google File System）。一個(gè)分布式文件系統，隱藏下層負載均衡，冗余復制等細節，對上層程序提供一個(gè)統一的文件系統API接口。Google根據自己的需求對它進(jìn)行了特別優(yōu)化，包括：超大文件的訪(fǎng)問(wèn)，讀操作比例遠超過(guò)寫(xiě)操作，PC機極易發(fā)生故障造成節點(diǎn)失效等。GFS把文件分成64MB的塊，分布在集群的機器上，使用Linux的文件系統存放。同時(shí)每塊文件至少有3份以上的冗余。中心是一個(gè)Master節點(diǎn)，根據文件索引，找尋文件塊。詳見(jiàn)Google的工程師發(fā)布的GFS論文。

　　(b)MapReduce。Google發(fā)現大多數分布式運算可以抽象為MapReduce操作。Map是把輸入Input分解成中間的Key/Value對，Reduce把Key/Value合成最終輸出Output。這兩個(gè)函數由程序員提供給系統，下層設施把Map和Reduce操作分布在集群上運行，并把結果存儲在GFS上。

　　(c)BigTable。一個(gè)大型的分布式數據庫，這個(gè)數據庫不是關(guān)系式的數據庫。像它的名字一樣，就是一個(gè)巨大的表格，用來(lái)存儲結構化的數據。

　　9、子項目

　　(a)HDFS: Hadoop分布式文件系統(Distributed File System)

　　(b)MapReduce：MapReduce是處理大量半結構化數據集合的編程模型

　　(c)HBase:類(lèi)似Google BigTable的分布式NoSQL列數據庫。

　　HBase是一個(gè)分布式的，面向列的數據庫。它基于Hadoop之上提供了類(lèi)似BigTable的功能。

　　(d)Hive：數據倉庫工具。

　　Hive是一個(gè)數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，并提供類(lèi)似SQL一樣的查詢(xún)語(yǔ)言HiveQL來(lái)管理這些數據。

　　(e)Zookeeper：分布式鎖設施，提供類(lèi)似Google Chubby的功能。

　　ZooKeeper是一個(gè)針對大型分布式系統的可靠協(xié)調系統，提供包括配置維護，名字服務(wù)，分布式同步和組服務(wù)等功能。 Hadoop的管理就是用的ZooKeeper。

　　(f)Avro：新的數據序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機制。

　　(g)Pig: 大數據分析平臺，為用戶(hù)提供多種接口。

　　Pig是一個(gè)基于Hadoop的大數據分析平臺，它提供了一個(gè)叫PigLatin的高級語(yǔ)言來(lái)表達大數據分析程序。

　　(h)Ambari：Hadoop管理工具，可以快捷的監控、部署、管理集群。

　　對Hadoop集群進(jìn)行監控和管理的基于Web的系統。目前已經(jīng)支持HDFS， MapReduce， Hive， HCatalog， HBase， ZooKeeper， Oozie， Pig和Sqoop等組件。

　　(i)Sqoop：在HADOOP與傳統的數據庫間進(jìn)行數據的.傳遞。

　　Sqoop是一個(gè)Hadoop和關(guān)系型數據庫之間的數據轉移工具�？蓪㈥P(guān)系型數據庫中的數據導入到Hadoop的HDFS中，也可將HDFS中的數據導進(jìn)到關(guān)系型數據庫中。

　　10、Hadoop1.x與Hadoop2.x的區別：

　　Hadoop2.x中有兩個(gè)重要的變更：

　　(a)HDFS的NameNode可以以集群的方式部署，增強了NameNode的水平擴展能力和可用性

　　(b)MapReduce將JobTrack中的資源管理及任務(wù)生命周期管理（包括定時(shí)觸發(fā)及監控），拆分成兩個(gè)獨立的組件，并更名為YARN

　　11、Hadoop2.x解決了Hadoop1.x中的哪些問(wèn)題

　　(a)2.x解決了1.x中的namenode單點(diǎn)故障問(wèn)題

　　(b)解決了namenode內存壓力過(guò)大難以擴展問(wèn)題

　　(c)解決了JobTrack單點(diǎn)故障問(wèn)題

　　(d)解決了JobTrack訪(fǎng)問(wèn)壓力過(guò)大問(wèn)題

　　(e)解決了對MapReduce之外的框架支持問(wèn)題

　　12、Zeppelin是一個(gè)基于web的可視化的大數據分析工具。主要用來(lái)進(jìn)行交互式的數據分析，它可以跟多種大數據分析組件集成在一起，為這些大數據分析組件提供基于瀏覽器頁(yè)面的交互式訪(fǎng)問(wèn)功能。

　　13、Zeppelin的主要用途

　　1、Data Ingestion(數據攝取)

　　2、Data Discovery(數據發(fā)現)

　　3、Data analytics(數據分析)

　　4、Data Visualization & Collaboration(數據可視化和協(xié)同開(kāi)發(fā))

　　14、Zeppelin的主要特點(diǎn)

　　a、支持多種編程語(yǔ)言

　　b、Zeppelin支持的語(yǔ)言取決于跟Zeppelin集成的interpreter. 比如Zeppelin跟Hive集成后，就可以支持HQL。

　　c、Zeppelin默認跟Spark，Spark shell支持的語(yǔ)法在Zeppelin都默認支持，并且ZeppelinNotebook對Scala，Python和Spark SQL還實(shí)現了語(yǔ)言高亮。

　　d、默認支持Spark

　　e、通過(guò)多種圖表的方式，對數據分析提供數據可視化的支持

　　f、通過(guò)簡(jiǎn)單的拖拽操作，可以對圖表中展示的數據進(jìn)行多種方式的聚合操作，如sum, count, average, min, max。

　　g、支持動(dòng)態(tài)表單，可以在交互中動(dòng)態(tài)修改過(guò)濾條件。

　　h、使用簡(jiǎn)單的模板語(yǔ)言來(lái)創(chuàng )建form表單, 適用于Markdown, Shell, SparkSQL后臺。

　　i、通過(guò)編程的方式創(chuàng )建form表單，適用于Scala，Python等，調用z（ZeppelinContext）來(lái)創(chuàng )建和訪(fǎng)問(wèn)表單。

　　j、支持協(xié)同開(kāi)發(fā)，Zeppelin的notebook，可以被多人同時(shí)使用，任何一個(gè)人的改動(dòng)都會(huì )被實(shí)時(shí)的同步到其他協(xié)作者的頁(yè)面上。

　　k、Zeppelin notebook上產(chǎn)生的圖表，可以被獨立發(fā)布，通過(guò)iframe，可以嵌入到別的網(wǎng)頁(yè)上。

　　l、100%開(kāi)源的Apache項目。

　　15、Ambari是一個(gè)開(kāi)源的分布式Hadoop集群安裝，部署，監控和管理的平臺。

　　16、Ambari主要由三個(gè)部分組成， Ambari Server， Ambari Web和Ambari Agent。

　　Ambari Server： AmbariServer是整個(gè)Ambari的統一入口，只能運行在集群中的一臺機器上。負責管理所有的Ambari Agent。

　　Ambari Web： AmbariWeb和Ambari Server運行在同一臺機器上，作為Ambari Server的一部分功能存在，提供Web和RestAPI的方式訪(fǎng)問(wèn)AmbariServer。

　　AmbariAgent：AmbariAgent需要在集群中的每個(gè)節點(diǎn)上都運行一個(gè)，負責監控宿主機器的狀態(tài)信息，執行從Ambari Server上發(fā)送過(guò)來(lái)的操作指令。

　　17、Spark是UCBerkeleyAMPlab所開(kāi)源的類(lèi)HadoopMapReduce的通用的并行計算框架，Spark基于mapreduce算法實(shí)現的分布式計算，擁有HadoopMapReduce所具有的優(yōu)點(diǎn)；但不同于MapReduce的是Job中間輸出和結果可以保存在內存中，從而不再需要讀寫(xiě)HDFS，因此Spark能更好地適用于數據挖掘與機器學(xué)習等需要迭代的map reduce的算法。

　　18、Spark與Hadoop的對比（Spark的優(yōu)勢）

　　1、Spark的中間數據放到內存中，對于迭代運算效率更高

　　2、Spark比Hadoop更通用

　　3、Spark提供了統一的編程接口

　　4、容錯性– 在分布式數據集計算時(shí)通過(guò)checkpoint來(lái)實(shí)現容錯

　　5、可用性– Spark通過(guò)提供豐富的Scala, Java，Python API及交互式Shell來(lái)提高可用性

　　19、Spark的組件

　　1、Spark Streaming：支持高吞吐量、支持容錯的實(shí)時(shí)流數據處理

　　2、Spark SQL， Data frames: 結構化數據查詢(xún)

　　3、MLLib：Spark 生態(tài)系統里用來(lái)解決大數據機器學(xué)習問(wèn)題的模塊

　　4、GraphX：是構建于Spark上的圖計算模型

　　5、SparkR：是一個(gè)R語(yǔ)言包，它提供了輕量級的方式使得可以在R語(yǔ)言中使用 Spark

　　20、DataFrame是一種以RDD為基礎的分布式數據集，類(lèi)似于傳統數據庫中的二維表格。

　　21、DataFrame與RDD的主要區別在于：

　　前者帶有schema元信息，即DataFrame所表示的二維表數據集的每一列都帶有名稱(chēng)和類(lèi)型。這使得SparkSQL得以洞察更多的結構信息，從而對藏于DataFrame背后的數據源以及作用于DataFrame之上的變換進(jìn)行了針對性的優(yōu)化，最終達到大幅提升運行時(shí)效率的目標。反觀(guān)RDD，由于無(wú)從得知所存數據元素的具體內部結構，Spark Core只能在stage層面進(jìn)行簡(jiǎn)單、通用的流水線(xiàn)優(yōu)化。

　　22、MLlib是spark的可以擴展的機器學(xué)習庫，由以下部分組成：通用的學(xué)習算法和工具類(lèi)，包括分類(lèi)，回歸，聚類(lèi)，協(xié)同過(guò)濾，降維

　　23、SparkR實(shí)現了分布式的data frame，支持類(lèi)似查詢(xún)、過(guò)濾以及聚合的操作

　　24、RDD，全稱(chēng)為Resilient Distributed Datasets，是個(gè)容錯的、并行的數據結構，可以讓用戶(hù)顯式地將數據存儲到磁盤(pán)和內存中，并能控制數據的分區。同時(shí)，RDD還提供了一組豐富的操作來(lái)操作這些數據。

　　25、RDD的特點(diǎn)：

　　1. 它是在集群節點(diǎn)上的不可變的、已分區的集合對象。

　　2. 通過(guò)并行轉換的方式來(lái)創(chuàng )建如(map, filter, join, etc )。

　　3. 失敗自動(dòng)重建。

　　4. 可以控制存儲級別(內存、磁盤(pán)等)來(lái)進(jìn)行重用。

　　5. 必須是可序列化的。

　　6. 是靜態(tài)類(lèi)型的。

　　26、RDD核心概念

　　Client：客戶(hù)端進(jìn)程，負責提交作業(yè)到Master。

　　Master：Standalone模式中主控節點(diǎn)，負責接收Client提交的作業(yè)，管理Worker，并命令Worker啟動(dòng)分配Driver的資源和啟動(dòng)Executor的資源。

　　Worker：Standalone模式中slave節點(diǎn)上的守護進(jìn)程，負責管理本節點(diǎn)的資源，定期向Master匯報心跳，接收Master的命令，啟動(dòng)Driver和Executor。

　　Driver：一個(gè)Spark作業(yè)運行時(shí)包括一個(gè)Driver進(jìn)程，也是作業(yè)的主進(jìn)程，負責作業(yè)的解析、生成Stage并調度Task到Executor上。包括DAGScheduler，TaskScheduler。

　　Executor：即真正執行作業(yè)的地方，一個(gè)集群一般包含多個(gè)Executor，每個(gè)Executor接收Driver的命令Launch Task，一個(gè)Executor可以執行一到多個(gè)Task。

　　27、RDD常見(jiàn)術(shù)語(yǔ)

　　DAGScheduler：實(shí)現將Spark作業(yè)分解成一到多個(gè)Stage，每個(gè)Stage根據RDD的Partition個(gè)數決定Task的個(gè)數，然后生成相應的Task set放到TaskScheduler中。

　　TaskScheduler：實(shí)現Task分配到Executor上執行。

　　Task：運行在Executor上的工作單元

　　Job：SparkContext提交的具體Action操作，常和Action對應

　　Stage：每個(gè)Job會(huì )被拆分很多組任務(wù)（task），每組任務(wù)被稱(chēng)為Stage，也稱(chēng)TaskSet

　　RDD：Resilient Distributed Datasets的簡(jiǎn)稱(chēng)，彈性分布式數據集，是Spark最核心的模塊和類(lèi)

　　Transformation/Action：SparkAPI的兩種類(lèi)型；Transformation返回值還是一個(gè)RDD，Action返回值不少一個(gè)RDD，而是一個(gè)Scala的集合；所有的Transformation都是采用的懶策略，如果只是將Transformation提交是不會(huì )執行計算的，計算只有在A(yíng)ction被提交時(shí)才會(huì )被觸發(fā)。

　　DataFrame：帶有Schema信息的RDD，主要是對結構化數據的高度抽象。

　　DataSet：結合了DataFrame和RDD兩者的優(yōu)勢，既允許用戶(hù)很方便的操作領(lǐng)域對象，又具有SQL執行引擎的高效表現。

　　28、RDD提供了兩種類(lèi)型的操作：transformation和action

　　1，transformation是得到一個(gè)新的RDD，方式很多，比如從數據源生成一個(gè)新的RDD，從RDD生成一個(gè)新的RDD

　　2，action是得到一個(gè)值，或者一個(gè)結果（直接將RDD cache到內存中）

　　3，所有的transformation都是采用的懶策略，就是如果只是將transformation提交是不會(huì )執行計算的，計算只有在action被提交的時(shí)候才被觸發(fā)

　　29、RDD中關(guān)于轉換(transformation)與動(dòng)作(action)的區別

　　前者會(huì )生成新的RDD，而后者只是將RDD上某項操作的結果返回給程序，而不會(huì )生成新的RDD；無(wú)論執行了多少次transformation操作，RDD都不會(huì )真正執行運算（記錄lineage），只有當action操作被執行時(shí)，運算才會(huì )觸發(fā)。

　　30、RDD 與 DSM(distributed shared memory)的最大不同是：

　　RDD只能通過(guò)粗粒度轉換來(lái)創(chuàng )建，而DSM則允許對每個(gè)內存位置上數據的讀和寫(xiě)。在這種定義下，DSM不僅包括了傳統的共享內存系統，也包括了像提供了共享 DHT(distributed hash table) 的 Piccolo 以及分布式數據庫等。

　　31、RDD的優(yōu)勢

　　1、高效的容錯機制

　　2、結點(diǎn)落后問(wèn)題的緩和 (mitigate straggler) ：

　　3、批量操作：

　　4、優(yōu)雅降級 (degrade gracefully)

　　32、如何獲取RDD

　　1、從共享的文件系統獲取，（如：HDFS）

　　2、通過(guò)已存在的RDD轉換

　　3、將已存在scala集合（只要是Seq對象）并行化，通過(guò)調用SparkContext的parallelize方法實(shí)現

　　4、改變現有RDD的之久性；RDD是懶散，短暫的。

　　33、RDD都需要包含以下四個(gè)部分

　　a.源數據分割后的數據塊，源代碼中的splits變量

　　b.關(guān)于“血統”的信息，源碼中的dependencies變量

　　c.一個(gè)計算函數（該RDD如何通過(guò)父RDD計算得到），源碼中的iterator(split)和compute函數

　　d.一些關(guān)于如何分塊和數據存放位置的元信息，如源碼中的partitioner和preferredLocations

　　34、在RDD中將依賴(lài)劃分成了兩種類(lèi)型：

　　窄依賴(lài)(narrowdependencies)和寬依賴(lài)(widedependencies)。窄依賴(lài)是指父RDD的每個(gè)分區都只被子RDD的一個(gè)分區所使用。相應的，那么寬依賴(lài)就是指父RDD的分區被多個(gè)子RDD的分區所依賴(lài)。例如，map就是一種窄依賴(lài)，而join則會(huì )導致寬依賴(lài)

　　依賴(lài)關(guān)系分類(lèi)的特性：

　　第一，窄依賴(lài)可以在某個(gè)計算節點(diǎn)上直接通過(guò)計算父RDD的某塊數據計算得到子RDD對應的某塊數據；

　　第二，數據丟失時(shí)，對于窄依賴(lài)只需要重新計算丟失的那一塊數據來(lái)恢復；

　　35、數據分析常見(jiàn)模式：

　　1、Iterative Algorithms，

　　2、Relational Queries，

　　3、MapReduce，

　　4、Stream Processing,

　　36、Spark Streaming的基本原理是將輸入數據流以時(shí)間片（秒級）為單位進(jìn)行拆分，然后以類(lèi)似批處理的方式處理每個(gè)時(shí)間片數據

　　37、Spark Streaming優(yōu)劣

　　優(yōu)勢：

　　1、統一的開(kāi)發(fā)接口

　　2、吞吐和容錯

　　3、多種開(kāi)發(fā)范式混用，Streaming + SQL, Streaming +MLlib

　　4、利用Spark內存pipeline計算

　　劣勢：

　　微批處理模式，準實(shí)時(shí)

　　38、Flume是一個(gè)分布式的日志收集系統，具有高可靠、高可用、事務(wù)管理、失敗重啟等功能。數據處理速度快，完全可以用于生產(chǎn)環(huán)境。

　　39、Flume的核心是agent。Agent是一個(gè)java進(jìn)程，運行在日志收集端，通過(guò)agent接收日志，然后暫存起來(lái)，再發(fā)送到目的地。

　　Agent里面包含3個(gè)核心組件：source、channel、sink。

　　Source組件是專(zhuān)用于收集日志的，可以處理各種類(lèi)型各種格式的日志數據,包括avro、thrift、exec、jms、spoolingdirectory、netcat、sequencegenerator、syslog、http、legacy、自定義。source組件把數據收集來(lái)以后，臨時(shí)存放在channel中。

　　Channel組件是在agent中專(zhuān)用于臨時(shí)存儲數據的，可以存放在memory、jdbc、file、自定義。channel中的數據只有在sink發(fā)送成功之后才會(huì )被刪除。

　　Sink組件是用于把數據發(fā)送到目的地的組件，目的地包括hdfs、logger、avro、thrift、ipc、file、null、hbase、solr、自定義。

　　40、ApacheKafka是分布式發(fā)布-訂閱消息系統。它最初由LinkedIn公司開(kāi)發(fā)，之后成為Apache項目的一部分。Kafka是一種快速、可擴展的、設計內在就是分布式的，分區的和可復制的提交日志服務(wù)。

　　41、Apache Kafka與傳統消息系統相比，有以下不同：

　　1、它被設計為一個(gè)分布式系統，易于向外擴展；

　　2、它同時(shí)為發(fā)布和訂閱提供高吞吐量；

　　3、它支持多訂閱者，當失敗時(shí)能自動(dòng)平衡消費者；

　　4、它將消息持久化到磁盤(pán)，因此可用于批量消費

　　42、DataFrame 特性

　　1、支持從KB到PB級的數據量

　　2、支持多種數據格式和多種存儲系統

　　3、通過(guò)Catalyst優(yōu)化器進(jìn)行先進(jìn)的優(yōu)化生成代碼

　　4、通過(guò)Spark無(wú)縫集成主流大數據工具與基礎設施

　　5、API支持Python、Java、Scala和R語(yǔ)言

　　43、Scala的好處：

　　1、面向對象和函數式編程理念加入到靜態(tài)類(lèi)型語(yǔ)言中的混合體

　　2、Scala的兼容性----能夠與Java庫無(wú)縫的交互

　　3、Scala的簡(jiǎn)潔性----高效，更不容易犯錯

　　4、Scala的高級抽象

　　5、Scala是靜態(tài)類(lèi)型----類(lèi)型推斷

　　6、Scala是可擴展的語(yǔ)言

　　44、搜索引擎是指根據一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息，在對信息進(jìn)行組織和處理后，為用戶(hù)提供檢索服務(wù)，將用戶(hù)檢索相關(guān)的信息展示給用戶(hù)的系統。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門(mén)戶(hù)搜索引擎與免費鏈接列表等。

　　45、Lucene是一個(gè)高性能、可伸縮的信息搜索庫，即它不是一個(gè)完整的全文檢索引擎，而是一個(gè)全檢索引擎的架構，提供了完整的查詢(xún)引擎和索引引擎，部分文本分析引擎。

　　46、Elasticsearch是一個(gè)高可擴展的、開(kāi)源的全文本搜索和分析工具。它允許你以近實(shí)時(shí)的方式快速存儲、搜索、分析大容量的數據。

　　Elasticsearch是一個(gè)基于A(yíng)pacheLucene(TM)的開(kāi)源搜索引擎。無(wú)論在開(kāi)源還是專(zhuān)有領(lǐng)域，Lucene可以被認為是迄今為止最先進(jìn)、性能最好的、功能最全的搜索引擎庫。

　　47、ElasticSearch 有4種方式來(lái)構建數據庫，

　　最簡(jiǎn)單的方法是使用indexAPI，將一個(gè)Document發(fā)送到特定的index，一般通過(guò)curltools實(shí)現。

　　第二第三種方法是通過(guò)bulkAPI和UDPbulkAPI。兩者的區別僅在于連接方式。

　　第四種方式是通過(guò)一個(gè)插件——river。river運行在ElasticSearch上，并且可以從外部數據庫導入數據到ES中。需要注意的是，數據構建僅在分片上進(jìn)行，而不能在副本上進(jìn)行。

　　48、ELK是一套常用的開(kāi)源日志監控和分析系統，包括一個(gè)分布式索引與搜索服務(wù)Elasticsearch，一個(gè)管理日志和事件的工具logstash，和一個(gè)數據可視化服務(wù)Kibana

　　logstash 負責日志的收集，處理和儲存

　　elasticsearch 負責日志檢索和分析

　　Kibana 負責日志的可視化

　　49、Hive是什么？

　　Hive是基于Hadoop的一個(gè)數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，并提供類(lèi)SQL查詢(xún)功能。本質(zhì)是將HQL轉換為MapReduce程序

　　50、Hive的設計目標？

　　1、Hive的設計目標是使Hadoop上的數據操作與傳統SQL相結合，讓熟悉SQL編程開(kāi)發(fā)人員能夠輕松向Hadoop平臺遷移

　　2、Hive提供類(lèi)似SQL的查詢(xún)語(yǔ)言HQL，HQL在底層被轉換為相應的MapReduce操作

　　3、Hive在HDFS上構建數據倉庫來(lái)存儲結構化的數據，這些數據一般來(lái)源與HDFS上的原始數據，使用Hive可以對這些數據執行查詢(xún)、分析等操作。

　　51、Hive的數據模型

　　1、Hive數據庫2、內部表3、外部表4、分區5、桶6、Hive的視圖

　　52、Hive的調用方式

　　1、Hive Shell 2、Thrift 3、JDBC 4、ODBC

　　53、Hive的運行機制

　　1、將sql轉換成抽象語(yǔ)法樹(shù)

　　2、將抽象語(yǔ)法樹(shù)轉化成查詢(xún)塊

　　3、將查詢(xún)塊轉換成邏輯查詢(xún)計劃（操作符樹(shù)）

　　4、將邏輯計劃轉換成物理計劃（MRjobs）

　　54、Hive的優(yōu)勢

　　1、并行計算

　　2、充分利用集群的CPU計算資源、存儲資源

　　3、處理大規模數據集

　　4、使用SQL，學(xué)習成本低

　　55、Hive應用場(chǎng)景

　　1、海量數據處理 2、數據挖掘 3、數據分析 4、SQL是商務(wù)智能工具的通用語(yǔ)言，Hive有條件和這些BI產(chǎn)品進(jìn)行集成

　　56、Hive不適用場(chǎng)景

　　1、復雜的科學(xué)計算 2、不能做到交互式的實(shí)時(shí)查詢(xún)

　　57、Hive和數據庫（RDBMS）的區別

　　1、數據存儲位置。Hive是建立在Hadoop之上的，所有的Hive的數據都是存儲在HDFS中的。而數據庫則可以將數據保存在塊設備或本地文件系統中。

　　2、數據格式。Hive中沒(méi)有定義專(zhuān)門(mén)的數據格式，由用戶(hù)指定三個(gè)屬性：列分隔符，行分隔符，以及讀取文件數據的方法。數據庫中，存儲引擎定義了自己的數據格式。所有數據都會(huì )按照一定的組織存儲。

　　3、數據更新。Hive的內容是讀多寫(xiě)少的，因此，不支持對數據的改寫(xiě)和刪除，數據都在加載的時(shí)候中確定好的。數據庫中的數據通常是需要經(jīng)常進(jìn)行修改。

　　4、執行延遲。Hive在查詢(xún)數據的時(shí)候，需要掃描整個(gè)表（或分區），因此延遲較高，只有在處理大數據是才有優(yōu)勢。數據庫在處理小數據是執行延遲較低。

　　5、索引。Hive沒(méi)有，數據庫有

　　6、執行。Hive是MapReduce，數據庫是Executor

　　7、可擴展性。Hive高，數據庫低

　　8、數據規模。Hive大，數據庫小

　　58、Hbase 的模塊：

　　Region

　　- Region用于存放表中的行數據

　　- 當一個(gè)表格很大的時(shí)候，數據會(huì )存放并共享在多個(gè)Region中

　　- 每一個(gè)Region只存放一個(gè)單一的Column Family

　　Region Server

　　- 一個(gè)Region Server包含多個(gè)Region

　　- 管理表格，以及實(shí)現讀寫(xiě)操作

　　- Client會(huì )直接和Region Server通信獲取數據

　　Master

　　- 協(xié)調多個(gè)Region Server

　　- 偵測各個(gè)Region Server的狀態(tài)并平衡它們之間的workload

　　- 分配Region給Region Serer

　　- 允許多個(gè)Master節點(diǎn)，但是只有一個(gè)服務(wù)，其他是backup

　　- 和Zookeeper一起工作實(shí)現HA

　　Zookeeper

　　- Hbase中至關(guān)重要的模塊

　　- 確保有一個(gè)Master處于Running的狀態(tài)

　　- 注冊Region和Region Server

　　- 屬于Hbase容錯性的一部分

　　HDFS

　　- Hadoop 的分布式文件系統（Hadoop Distributed File System）

　　API

　　- Hbase提供Java的Client API

【大數據知識點(diǎn)總結】相關(guān)文章：

消防演練數據總結（精選5篇）05-10

數據和人心——讀《白金數據》有感04-11

《觀(guān)潮》知識點(diǎn)總結11-17

《化石吟》知識點(diǎn)總結11-11

數據分析簡(jiǎn)歷03-16

數據管理規定02-17

文秘專(zhuān)業(yè)知識點(diǎn)總結04-07

木蘭詩(shī)知識點(diǎn)總結資料10-01

語(yǔ)文《背影》知識點(diǎn)總結歸納12-07

語(yǔ)文背影的知識點(diǎn)總結12-07

最新文章

^{<th id="agce4"></th>}<noframes id="agce4"><kbd id="agce4"></kbd>

<input id="agce4"></input>