成人免费看黄网站无遮挡,caowo999,se94se欧美综合色,a级精品九九九大片免费看,欧美首页,波多野结衣一二三级,日韩亚洲欧美综合

基于大數據的統計分析模型設計論文

時(shí)間:2021-04-21 08:36:14 論文 我要投稿

基于大數據的統計分析模型設計論文

  統計是利用盡可能少的局部樣本數據來(lái)發(fā)現總體規律,處理對象往往數據規模小且數據結構單一。在大數據環(huán)境下,面臨海量數據的采集與統計,傳統方法已無(wú)法滿(mǎn)足大規模數據集處理;贖adoop系統,利用其分布式存儲和并行處理機制,設計了大數據環(huán)境下的統計分析模型,從海量數據中提取出有用的信息特征,實(shí)現數據資源共享,為相關(guān)部門(mén)決策提供信息服務(wù)。

基于大數據的統計分析模型設計論文

  0引言

  隨著(zhù)統計數據規模的快速增長(cháng),數據特征日趨復雜,數據收集渠道多樣,統計學(xué)相關(guān)領(lǐng)域研究已進(jìn)入大數據時(shí)代。如何高效收集樣本數據、挖掘信息,從海量數據中提取有用的信息特征,將信息及時(shí)提供給相關(guān)部門(mén)決策,成為當前統計學(xué)研究熱點(diǎn)之一。與國外相比,我國在統計分析工作中存在信息資源整合程度不高、數據共享匱乏、信息不完整等問(wèn)題。隨著(zhù)大數據時(shí)代的到來(lái),對大數據分析與挖掘的研究和應用越來(lái)越重視,大數據的挖掘與分析將幫助統計部門(mén)在有效合理的時(shí)間內采集、處理、管理與分析海量數據。

  目前政府部門(mén)間借助政務(wù)平臺可以實(shí)現數據資源共享,但是企業(yè)與政府間缺乏數據的分享平臺,造成了信息隔離,對此,統計部門(mén)要構建起全方位的海量數據共享和分布式存儲的安全統計分析平臺,實(shí)現跨地區的統計信息交流,滿(mǎn)足海量信息數據的實(shí)時(shí)分享和處理。

  1大數據

  大數據是一種大規模的數據集合,數據分析人員無(wú)法在一定時(shí)間內用一般軟件對其進(jìn)行提取、處理、分析和管理。處理大數據的關(guān)鍵技術(shù)包括大規模數據集的并行處理技術(shù)、分布式數據庫、分布式文件存儲與處理系統、數據挖掘、云計算等。大數據具有5V特點(diǎn):Volume(體量浩大)、Variety(類(lèi)型多樣)、Velocity(生成快速)、Veracity(真實(shí)性高)、Value(價(jià)值巨大)。

  1.1云計算

  云計算(Cloud Computing)是傳統信息技術(shù)發(fā)展融合的產(chǎn)物,基于效用計算(Utility Computing)、并行計算(Parallel Computing)、分布式計算(Distributed Computing),它提供便捷的、可用的、按需付費的網(wǎng)絡(luò )訪(fǎng)問(wèn)。云計算平臺可以提供IaaS(基礎設施即服務(wù))、PaaS(平臺即服務(wù))、 SaaS(軟件即服務(wù)),同時(shí)負責數據安全、分布式網(wǎng)絡(luò )存儲、虛擬化、負載均衡、熱備份冗余等,用戶(hù)在使用資源時(shí)不需考慮底層基礎架構。

  大數據應用不在于掌握龐大的數據信息,而在于對獲取的數據進(jìn)行專(zhuān)業(yè)化處理,以挖掘出數據的價(jià)值。大數據處理任務(wù)無(wú)法用單機串行計算方式處理,必須采用分布式架構進(jìn)行計算。其特點(diǎn)在于依托云計算的分布式處理、云存儲、分布式數據庫和虛擬化技術(shù)對海量數據進(jìn)行挖掘。

  1.2大數據處理技術(shù)

  1.2.1大數據研究現狀

  Science、Nature等國際頂級學(xué)術(shù)期刊出專(zhuān)刊探討了大數據處理與分析研究,介紹海量數據給社會(huì )生產(chǎn)和人們生活帶來(lái)的挑戰和機遇,學(xué)者們斷言:“數據將是未來(lái)舉足輕重的資源。在應用方面,目前已有很多企業(yè)開(kāi)始做大數據處理的相關(guān)研究,IBM、谷歌、雅虎、亞馬遜等公司紛紛提出自己的大數據處理架構和計算模式。谷歌首先提出了分布式存儲系統GFS文件系統、大型分布式數據庫BigTable。2012年美國政府斥資2億美元啟動(dòng)了大數據研究和發(fā)展計劃,大力發(fā)展數據信息化基礎設施建設。

  1.2.2大數據處理關(guān)鍵技術(shù)

  處理和分析大數據的關(guān)鍵在于具備分布式存儲功能和強大的計算能力,數據處理的基礎在于數據存儲,數據分析的關(guān)鍵在于強勁的處理能力。 Hadoop是一個(gè)可擴展、可靠、開(kāi)源的分布式計算系統,該框架能夠實(shí)現在計算機集群中用簡(jiǎn)單的計算模式處理海量數據,同依賴(lài)高性能服務(wù)器相比,Hadoop擴展性較好,同時(shí)集群中的節點(diǎn)都可以提供本地存儲和計算。

  1.3基于大數據的統計分析研究

  統計是一項數據處理工程,面對大數據集的處理,統計樣本變大、數據特征復雜等使得統計工作也變得繁瑣,而數據挖掘是從大量數據中取得有用信息的過(guò)程,利用現代信息技術(shù)及挖掘算法,可以高效地對有用數據獲取與處理。不妨將數據挖掘理解為一個(gè)大數據狀態(tài)下精確處理數據的統計模型,對挖掘后的數據再引入統計學(xué)的思想進(jìn)行相關(guān)數據處理與分析,將兩種方法有機結合起來(lái)。

  圖1大數據環(huán)境下的統計工作基礎架構 Hadoop為統計分析工作提供了一個(gè)穩定可靠的分析系統和共享存儲,它包含兩個(gè)核心技術(shù):MapReduce和HDFS。MapReduce實(shí)現數據的處理和分析,HDFS負責數據的共享存儲。如圖1所示,大數據環(huán)境下,統計工作的基本架構包含數據采集中心和統計分析處理中心。數據采集中心主要是通過(guò)部署在云計算環(huán)境下的服務(wù)器集群去完成數據采集工作,數據主要存放在HDFS分布式數據庫中;統計管理部門(mén)設立總的服務(wù)器集群,為保證系統的可擴展性,還可以將基層的服務(wù)器隨時(shí)納入該集群中,利用MapReduce機制分配和處理計算任務(wù);統計分析處理中心主要是智能算法池,通過(guò)算法的`應用對采集到的數據進(jìn)行分析。

  2基于Hadoop的大數據統計分析模型構建

  大數據環(huán)境下的統計分析系統以海量數據挖掘為基礎,傳統的統計分析系統采用定期對數據進(jìn)行處理和分析的方式來(lái)更新模型。由于是定期被動(dòng)更新,模型無(wú)法保持實(shí)時(shí)性,容易造成統計結果不連續。

  系統的設計關(guān)鍵在于海量數據的實(shí)時(shí)采集獲取、統計分析處理和存儲,目的在于實(shí)現統計信息資源的共享;贖adoop的層次化統計分析模型如圖2所示,自上而下包括云平臺應用層、邏輯與接口層、計算層、文件系統管理層、物理資源層。

  圖2基于Hadoop的層次化統計分析模型 物理資源層:負責管理平臺的基礎設施,為平臺提供物理設施,除包含分布式集群、數據采集終端、基礎網(wǎng)絡(luò )外,還包括圍繞應用相關(guān)的基礎組件。

  文件系統管理層:主要用于存儲數據文件和日志文件,同時(shí)具備高可用數據備份功能。該層主要采用HDFS分布式存儲,提供很強的數據吞吐能力。針對不同的數據統計終端,該層設計使用不同的操作系統,以便于數據的統一性。

  計算層是該統計模型的核心層,所有的運算機制和數據處理任務(wù)都在該層完成。其基礎框架是基于Hadoop MapReduce并行計算框架,采用對數據 “分而治之”的方法來(lái)完成并行化的大數據統計分析工作,用Map和Reduce函數提供兩個(gè)高層的并行編程抽象模型和接口,工作人員只需要實(shí)現這兩個(gè)基本接口即可快速完成并行化數據處理程序設計。此外該層還包含了Hadoop平臺的流數據處理storm和實(shí)時(shí)處理spark,用于對數據源的實(shí)時(shí)分析處理和更新,以滿(mǎn)足統計部門(mén)的高效快速響應要求。

  邏輯與接口層:該層主要功能是實(shí)現上層應用層的基礎管理功能,主要包含用戶(hù)管理、安全身份認證、統計任務(wù)的分配以及連接各地統計部門(mén)的接口等,該層還負責整體功能的性能監控。

【基于大數據的統計分析模型設計論文】相關(guān)文章:

基于數據流SFCM挖掘的入侵檢測系統模型論文04-29

基于數據挖掘的高校教務(wù)系統設計論文11-15

基于對象數據模型的信息管理系統結構設計技術(shù)探究論文10-28

基于模型的軟件測試技術(shù)探析論文05-03

淺談基于的Windows Azure平臺下的訪(fǎng)問(wèn)控制模型的設計論文11-16

基于工業(yè)設計模型的高校實(shí)驗室建設論文11-19

石油勘探開(kāi)發(fā)主數據模型研究與設計論文11-02

基于水文模型及水動(dòng)力模型的山洪臨界雨量研究論文10-29

基于A(yíng)R模型便攜式心率變異系統的設計與實(shí)現論文11-15