成人免费看黄网站无遮挡,caowo999,se94se欧美综合色,a级精品九九九大片免费看,欧美首页,波多野结衣一二三级,日韩亚洲欧美综合

大數據時(shí)代基于云計算的數據監護研究論文

時(shí)間:2021-04-15 18:27:21 論文 我要投稿

大數據時(shí)代基于云計算的數據監護研究論文

  在大數據時(shí)代,為了更好地管理和利用科學(xué)數據,計算機圖靈獎獲得者Jim Gray于2002年提出了數據監護(Data Curation)的概念。十余年來(lái),數據監護一直是國內外信息資源管理領(lǐng)域的熱點(diǎn)議題,研究主題集中在數據監護的內容、發(fā)展策略、合作模式、職業(yè)教育、成功實(shí)踐等領(lǐng)域。111鑒于云計算能夠為數據監護提供強有力的技術(shù)支撐,如云計算快速提供資源的能力有助于輔助完成資源密集型數據監護任務(wù),網(wǎng)絡(luò )化云服務(wù)有利于實(shí)現數據監護的協(xié)同工作,基于云計算開(kāi)展數據監護引起了國外信息資源管理學(xué)界和業(yè)界的廣泛關(guān)注。本文對基于云計算的數據監護問(wèn)題進(jìn)行探討,希望對我國的數據監護工作有所借鑒。

大數據時(shí)代基于云計算的數據監護研究論文

  一、數據監護工作流程

  數據監護是為了確保數據當前的使用目的,并能用于未來(lái)再發(fā)現及再利用,從數據產(chǎn)生伊始即對其進(jìn)行管理和完善的活動(dòng)。121為了有效指導數據監護實(shí)踐,提高數據監護效率,一些數據監護機構和研究者對數據監護過(guò)程進(jìn)行了概念化,提出了相應的數據監護生命周期模型。本文基于英國數據監護中心的DCC數據監護生命周期模型13與王芳和慎金花提出的細化的數據監護生命周期模型,梳理出了數據監護工作流程,見(jiàn)圖1。數據監護工作流程由4個(gè)階段、11個(gè)業(yè)務(wù)環(huán)節組成,涵蓋了數據監護的所有必要階段和核心工作。

  數據收集階段:數據采集。數據采集是數據監護活動(dòng)的起點(diǎn),指根據采集政策,從數據創(chuàng )建者、檔案館、知識庫或數據中心等接收數據。元數據創(chuàng )建。為采集到的數據創(chuàng )建管理、描述、結構和技術(shù)元數據,以便進(jìn)行數據管理和數據維護,以及實(shí)現數據共享。

  數據處理階段:數據評價(jià)和選擇。評估數據并為長(cháng)期監護和保存選擇數據。數據評價(jià)和選擇直接關(guān)系到科學(xué)數據庫的質(zhì)量,并且帶有一定的主觀(guān)性。數據剔除。根據成文的政策、指引或法律要求,處理未成為長(cháng)期監護和保存對象的數據,將這些數據轉移到其他檔案館、知識庫、數據中心或其他保管機構。根據法律要求,有些數據會(huì )被安全銷(xiāo)毀。數據導入。將經(jīng)過(guò)選擇的數據傳送至檔案館、知識庫、數據中心或其他數據監護機構。為保證數據的可用性,在導入數據之前,應進(jìn)行去重、交叉注釋、格式認證等。數據遷移。根據存儲環(huán)境的需求,或者為了確保數據對硬件和軟件退化的抗擾性,改換數據的格式、存儲系統、存儲類(lèi)型。

  數據保存階段:數據長(cháng)期保存。長(cháng)期保存須確保數據的可信性、可靠性、可用性和完整性。長(cháng)期保存包括數據清洗、數據驗證、分配保存元數據、分配表征信息,保證數據具備可接受的數據結構和文件格式。數據存儲。遵守相關(guān)標準,選擇科學(xué)的組織方式和安全的存儲介質(zhì)組織并存儲數據。數據存儲既可以保證數據的安全性,又便于數據被隨時(shí)使用和加工處理。

  數據利用階段:數據獲取。采用適當的標準發(fā)布數據,并執行嚴格的訪(fǎng)問(wèn)控制和驗證程序,保證用戶(hù)安全、準確的訪(fǎng)問(wèn)和獲取數據。數據復用。制訂數據復用規則,在不違反知識產(chǎn)權的前提下,提供數據復制、鏈接、引用等服務(wù)。數據轉換。根據原始數據創(chuàng )建新數據。例如,通過(guò)轉換格式、建立子集等途徑,創(chuàng )建新數據。

  二、云計算為數據監護提供支撐

  云計算作為分布式計算、網(wǎng)絡(luò )存儲、負載均衡、熱備份冗余等計算機和網(wǎng)絡(luò )技術(shù)融合的產(chǎn)物,具有超大規模、虛擬化、通用性、高可擴展性等諸多特點(diǎn)。云計算的特點(diǎn)與數據監護的需求非常契合,可以為數據監護提供強有力的技術(shù)支撐。

  彈性服務(wù):云計算服務(wù)的規?煽焖偕炜s,以自動(dòng)適應業(yè)務(wù)負載的動(dòng)態(tài)變化。用戶(hù)使用的云計算資源與業(yè)務(wù)的實(shí)際需求相一致,避免了因為資源供需不匹配而導致的服務(wù)質(zhì)量下降或資源浪費。161數據監護的數據剔除和數據遷移等任務(wù)不需要持續不斷的執行,屬偶發(fā)性活動(dòng)。云計算的彈性服務(wù)能夠很好地滿(mǎn)足偶發(fā)性數據監護活動(dòng)的資源調用需求。

  按需服務(wù):云計算以服務(wù)的形式為用戶(hù)提供基礎設施、存儲空間、應用程序等,并能夠根據用戶(hù)的需求,自動(dòng)分配各種資源。17用戶(hù)也可以根據需要在云中部署所需的應用程序。云計算的按需服務(wù)為數據監護中需要依賴(lài)主觀(guān)意識完成的任務(wù),如元數據創(chuàng )建、數據評價(jià)和選擇提供了極大的便利。

  泛在接入:用戶(hù)通過(guò)互聯(lián)網(wǎng)可以隨時(shí)隨地利用云計算服務(wù)。數據用戶(hù)越來(lái)越多的使用筆記本電腦、智能手機、平板電腦,將數據監護業(yè)務(wù)流程轉移至云,能夠極大地方便用戶(hù)上傳、訪(fǎng)問(wèn)和下載數據。數據監護的數據采集、數據獲取和數據復用等業(yè)務(wù)環(huán)節,可以從云計算的這一特點(diǎn)中受益。

  服務(wù)外包:用戶(hù)進(jìn)行數據處理所需的計算資源價(jià)格昂貴,將提供計算資源的業(yè)務(wù)委托給云服務(wù)商,既能夠節省開(kāi)支,又能夠使用戶(hù)專(zhuān)注于自己的核心工作。云服務(wù)商為了利益最大化,保持最優(yōu)競爭力,都會(huì )迅速應對技術(shù)變革,以更低的價(jià)格提供更快的處理器和更大的存儲空間。云計算服務(wù)外包的特點(diǎn)使數據監護機構將部分信息技術(shù)支持業(yè)務(wù)委托給云服務(wù)商,以獲得更低廉的價(jià)格和更優(yōu)質(zhì)的服務(wù)成為可能。

  三、基于云計算的數據監護模型

  云計算提供從硬件設施到應用軟件的多層次服務(wù)。根據服務(wù)的對象和功能差異可以將云計算劃分為三種服務(wù)模式:基礎設施即服務(wù)(IaaS)、平臺即服務(wù)(PaaS)、軟件即服務(wù)(SaaS);根據租用云計算的用戶(hù)對數據和環(huán)境的控制權,可以將云計算劃分為公有云、私有云和混合云等部署模型。本文根據數據監護不同業(yè)務(wù)階段的工作內容和技術(shù)需求,并結合云計算的服務(wù)模式和部署模型,構建了基于云計算的數據監護模型,見(jiàn)圖2。下面分別從數據監護的云計算服務(wù)模式和部署模型兩個(gè)方面分析基于云計算的數據監護模型。

  (一)數據監護的云計算服務(wù)模式

  IaaS層。IaaS提供基礎設施部署服務(wù)。IaaS通過(guò)虛擬化技術(shù)整合服務(wù)器、存儲設備、網(wǎng)絡(luò )資源、高性能計算集群等物理資源,構建全局統一的動(dòng)態(tài)虛擬化資源池;谠朴嬎愕臄祿O護模型的IaaS層為上層云計算服務(wù)提供海量硬件資源,實(shí)現硬件資源的按需酉己置。

  PaaS層。PaaS是云計算應用程序運行環(huán)境,提供應用程序部署與管理服務(wù)。PaaS不僅能夠實(shí)現海量數據的存儲,而且能夠提供面向海量數據的分析處理功能。在基于云計算的數據監護模型的PaaS層,數據監護機構使用云供應商的軟件工具和開(kāi)發(fā)語(yǔ)言,開(kāi)發(fā)數據收集和數據處理所需的各種應用程序,實(shí)現應用程序的多元化和定制化服務(wù),并將科學(xué)數據保存于海量數據存儲系統。

  SaaS層。SaaS提供以服務(wù)為形式的應用程序。SaaS允許用戶(hù)使用部署于供應商云基礎設施上的應用程序,用戶(hù)也可以根據需求向供應商定制應用程序。在基于云計算的數據監護模型的SaaS層,數據監護機構通過(guò)應用程序向用戶(hù)提供數據利用服務(wù),實(shí)現數據共享和科研協(xié)作。

  (二)數據監護的云計算部署模型

  數據監護的各個(gè)階段分別面向數據監護方和數據使用方,對應不同的數據存取、處理等操作權限,因此需要采用相適應的云計算部署模型。數據監護過(guò)程中的數據利用階段位于SaaS層,為用戶(hù)提供方便高效的數據獲取等服務(wù),而公有云面向一般公眾提供敏捷彈性服務(wù)的特點(diǎn)與數據利用階段的功能需求相契合。用戶(hù)能夠通過(guò)網(wǎng)絡(luò )瀏覽器像使用個(gè)人電腦中的軟件那樣使用公有云的應用程序,實(shí)現應用程序的泛在訪(fǎng)問(wèn)。因此,基于云計算的數據監護模型的SaaS層應采用公有云部署模型。數據收集和數據處理工作要求云計算提供量身定制的服務(wù)功能和非常穩定的'服務(wù)質(zhì)量,而數據保存工作要求云計算能夠切實(shí)保障數據安全。私有云部署在用戶(hù)數據中心的防火墻內,能夠提供對數據、安全性和服務(wù)質(zhì)量的最有效控制,而且不會(huì )沖擊用戶(hù)已有的業(yè)務(wù)流程。因此,基于云計算的數據監護模型的PaaS層適宜采用私有云部署模型。上述公有云和私有云的基礎設施共同構成了基于云計算的數據監護模型的IaaS層,并且公有云和私有云具有統一的接口標準,保證服務(wù)的無(wú)縫遷移,即IaaS層采用混合云部署模型。

  四、基于云計算的數據監護案例

  SRF項目:英國南安普頓大學(xué)的SRF項目,針對科學(xué)研究工作集成了許多已有的協(xié)作型數據管理工具,并將這些工具部署到一個(gè)共享的虛擬云平臺上,以SaaS的方式提供服務(wù)。SRF工具最大的特點(diǎn)是能夠在網(wǎng)絡(luò )日志中自動(dòng)或者手工創(chuàng )建和共享實(shí)驗數據。例如,SRF的一款代理軟件能夠植入實(shí)驗儀器和計算機,自動(dòng)抽取儀器在實(shí)驗過(guò)程中記錄的數據,并轉換為XML格式,然后以博客的形式發(fā)布以實(shí)現協(xié)作復用。通過(guò)博客發(fā)布平臺實(shí)現實(shí)驗過(guò)程、實(shí)驗數據、實(shí)驗分析的互聯(lián),組織實(shí)驗數據記錄,構建實(shí)驗、實(shí)驗數據、實(shí)驗設備之間的關(guān)聯(lián)關(guān)系。在數據監護生命周期中,SRF工具主要用于接收和抽取數據,以保證實(shí)驗數據在上傳至云的過(guò)程中會(huì )被格式化成標準格式。

  Data Flow項目:牛津大學(xué)的Data Flow項目,旨在創(chuàng )建免費的云托管Data Stage和Data Bank,以便于管理、保存、發(fā)布研究數據。其中,Data Stage以在用戶(hù)電腦上運行映射驅動(dòng)器的方式,提供研究組水平的、安全的“本地”文件管理環(huán)境。另外,Data Stage還提供數據的網(wǎng)絡(luò )獲取和在線(xiàn)存儲服務(wù),用戶(hù)通過(guò)訪(fǎng)問(wèn)控制程序的認證之后,即可以訪(fǎng)問(wèn)私人、共享、協(xié)作、公眾和公共數據目錄。Data Bank是一種虛擬化的、基于云部署的機構研究數據倉儲。機構可以選擇將Data Bank部署在Eduserv教育云或者機構自己的基礎設施中。Data Bank還具備包括數據抽取、儲存、長(cháng)期保存、訪(fǎng)問(wèn)在內的一系列數據監護功能。

  Kindura項目:倫敦國王學(xué)院的Kindura項目,是一個(gè)基于混合云部署模型的科學(xué)數據管理試點(diǎn)項目,提供基于存儲的數據管理服務(wù)和基于計算的數據處理服務(wù)。Kindura項目通過(guò)DuraSpace推出的托管云服務(wù)一DuraCloud,將本地服務(wù)與各種云服務(wù)相銜接。用戶(hù)利用DuraCloud提供的統一界面,即可享受一站式數據存取服務(wù)。Kindura項目通過(guò)部署于服務(wù)器上的規則引擎,以及面向規則的集成數據管理系統(iRODS)的規則庫,決定具體數據存儲在本地還是存儲于云端:二進(jìn)制對象存儲在云端,元數據和Fedora對象存儲在本地。l9Kindura項目證明,混合云能夠有效節省數據監護成本,并且能夠更加高效地利用本地存儲庫,提升數據處理能力。

  東南大學(xué)AMS-02項目:東南大學(xué)為大型國際合作項目AMS-02的數據監護工作構建的云計算平臺,提供IaaS、PaaS、SaaS服務(wù)。該云計算平臺架構如圖3所示。在IaaS層,云計算基礎設施由3500顆CPU內核和500TB高速存儲設備構成,提供虛擬機和物理機的按需分配,并且自動(dòng)配置操作系統、科學(xué)計算函數庫等運行環(huán)境。在PaaS層,數據分析處理平臺提供大規模計算能力和海量數據存儲能力;應用開(kāi)發(fā)環(huán)境為AMS-02數據分析處理應用提供編程接口。在SaaS層,以服務(wù)的形式部署云計算應用程序,用戶(hù)通過(guò)訪(fǎng)問(wèn)AMS-02應用,可以獲取原始科學(xué)數據以及數據處理分析結果。云計算通過(guò)超級計算模式,整合大量的存儲、計算、帶寬等資源,為數據監護提供了經(jīng)濟高效的解決方案。國內的數據監護尚處于起步階段,對基于云計算的數據監護進(jìn)行深入的理論探討和實(shí)踐探索,有助于推動(dòng)我國的數據監護實(shí)現跨越式發(fā)展。

【大數據時(shí)代基于云計算的數據監護研究論文】相關(guān)文章:

云計算環(huán)境數據安全研究論文11-03

研究基于云計算角度下的數據存儲安全技術(shù)論文11-07

云計算環(huán)境下的數據挖掘研究論文10-28

大數據時(shí)代的大數據管理研究論文10-19

基于數據抽取與訂閱實(shí)現數據共享分析及研究論文10-30

大數據時(shí)代數據挖掘技術(shù)教學(xué)研究論文01-20

分析論文:云計算環(huán)境下大數據06-26

大數據時(shí)代的國際關(guān)系研究論文11-05

淺析基于云計算的分布式數據挖掘系統設計與實(shí)現論文11-14