信息管理專(zhuān)業(yè)建立大數據實(shí)驗平臺的思考論文
隨著(zhù)大數據、商務(wù)智能技術(shù)的快速發(fā)展與廣泛應用,作為綜合型應用型人才的信息管理專(zhuān)業(yè)的本科生必須在掌握理論知識的前提下了解和熟悉大數據存儲、處理、分析與可視化的實(shí)踐操作,這就對建立大數據實(shí)驗平臺提出了要求。本文探討大數據實(shí)驗平臺建立的必要性與可行性,并通過(guò)大數據系統的調研情況,給出大數據實(shí)驗平臺建立的初步構想。
一、引言
隨著(zhù)大數據應用范圍的擴大,相應的人才需求也存在很大缺口,此時(shí)在信息管理學(xué)院建立大數據開(kāi)發(fā)實(shí)驗室,包括云存儲平臺建設、基于云存儲平臺的教育資源建設、大數據開(kāi)發(fā)平臺建設、大數據分析工具與資源建設,能應用云存儲技術(shù)實(shí)現教育資源的有效應用;能促進(jìn)學(xué)生了解大數據開(kāi)發(fā)的Hadoops環(huán)境,以及該環(huán)境下的平臺建設;并能在該平臺下進(jìn)行大數據分析實(shí)踐。本校信息管理學(xué)院包括信息管理與信息系統、電子商務(wù)、信息安全等專(zhuān)業(yè),在此實(shí)驗平臺上,根據不同的教學(xué)目標開(kāi)發(fā)針對不同專(zhuān)業(yè)的學(xué)生的開(kāi)放性實(shí)驗課程尤為重要。
二、必要性與可行性
當前“大數據技術(shù)”充滿(mǎn)了新的機遇和挑戰,其在企業(yè)IT基礎架構、數據管理、分析和服務(wù)這些關(guān)鍵規劃領(lǐng)域的應用,將會(huì )對社會(huì )經(jīng)濟發(fā)展帶來(lái)長(cháng)遠深刻的影響。大數據指的是從各種各樣的數據中快速獲得有價(jià)值信息的能力,具有數據量大、種類(lèi)繁多、價(jià)值稀疏、處理速度快的特征,這些特征對目前社會(huì )各個(gè)行業(yè)的信息架構、系統的沖擊非常大。大數據技術(shù)對整個(gè)社會(huì )經(jīng)濟發(fā)展來(lái)說(shuō)既是機遇也是挑戰。
(一)必要性
根據IDC在2011年6月發(fā)布的《數字宇宙》(Digital Universe)研究報告,2011年全球新建和復制的信息量超過(guò)1.9 ZB(1.8萬(wàn)億GB),五年時(shí)間增加了近九倍。隨著(zhù)數據量的指數級增長(cháng)、數據源種類(lèi)(包括結構化數據源和非結構化數據源,如社交媒體、富媒體文件以及地理空間信息)的飛速增加,以及數據產(chǎn)生速度的加快(如實(shí)時(shí)傳感器數據),傳統的數據庫和架構無(wú)法處理、管理和分析如此龐大的數據集。政府、金融、電信、互聯(lián)網(wǎng)等大數據應用的行業(yè)先鋒目前均面臨大數據的問(wèn)題。不僅如此,隨著(zhù)物聯(lián)網(wǎng)、云計算、移動(dòng)互聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)、智能手機、平板電腦的飛速發(fā)展,大數據技術(shù)擁有了更為廣泛的數據資源。因此,IT產(chǎn)業(yè)界及行業(yè)用戶(hù)都亟需針對大數據設計和優(yōu)化大數據存儲、管理和查詢(xún)平臺,來(lái)替代傳統關(guān)系型數據庫平臺。在技術(shù)發(fā)展的前沿階段進(jìn)行實(shí)驗平臺建設對我學(xué)院師生具有重要意義。
該實(shí)驗平臺能夠為學(xué)生提供一個(gè)了解最前沿技術(shù)的機會(huì ),不僅能夠提高學(xué)生學(xué)習興趣、自學(xué)能力,還為學(xué)生就業(yè)、更好地規劃未來(lái)的職業(yè)發(fā)展提供了機會(huì )。大數據技術(shù)的機遇與挑戰帶來(lái)了很大的人才缺口,目前大數據技術(shù)平臺開(kāi)發(fā)、方案實(shí)施人才緊缺;由于云存儲、大數據技術(shù)帶來(lái)的信息安全問(wèn)題,也亟需大量信息安全領(lǐng)域的人才;由于大數據技術(shù)在物聯(lián)網(wǎng)、電子商務(wù)、移動(dòng)互聯(lián)方面的應用,對了解大數據技術(shù)的電子商務(wù)專(zhuān)業(yè)人才也更青睞。通過(guò)本實(shí)驗平臺的培養,感興趣的優(yōu)秀學(xué)生還可以嘗試考取與大數據技術(shù)密切相關(guān)的Hadoop專(zhuān)業(yè)認證——Cloudera Certified Developer/Administrator for Apache Hadoop,為學(xué)校、學(xué)院在該領(lǐng)域帶來(lái)正面影響,增加更多合作和就業(yè)的機會(huì )。
該實(shí)驗平臺能夠為信息系統專(zhuān)業(yè)試點(diǎn)班培養計劃的很多核心課程(包括管理統計學(xué)中的業(yè)務(wù)報表與分析、商務(wù)智能方法與應用、商務(wù)智能實(shí)踐、數據挖掘和BA綜合實(shí)訓等)形成較好的前后銜接關(guān)系,能夠豐富實(shí)踐教學(xué)環(huán)節,深化教學(xué)大綱的內容,從建設更合理的'課程建設體系來(lái)說(shuō)具有很大的必要性。
近幾年學(xué)生就業(yè)壓力越來(lái)越大,迫切需要對教學(xué)內容和實(shí)踐環(huán)節不斷突破創(chuàng )新,才能具備持續發(fā)展能力。因此在原有課程體系和實(shí)踐教學(xué)環(huán)境的基礎上增設本實(shí)驗平臺非常必要。
(二)可行性
教學(xué)計劃中的相關(guān)程序設計課程為學(xué)生學(xué)習云存儲技術(shù)、熟悉大數據開(kāi)發(fā)平臺、了解最新大數據技術(shù)的發(fā)展、進(jìn)行大數據平臺基礎上的開(kāi)發(fā)、實(shí)現對大數據的分析、可視化演示打好了基礎。
英特爾Apache Hadoop平臺是目前大多數大數據處理的技術(shù)基礎,目前該技術(shù)已經(jīng)發(fā)展成熟,并隨之產(chǎn)生很多基于該平臺的大數據處理工具,可供實(shí)驗室建設實(shí)驗平臺使用。
三、建立大數據實(shí)驗平臺的基本構想
(一)實(shí)驗平臺人員
實(shí)驗平臺人員負責實(shí)驗平臺的建設、維護,實(shí)驗設計與指導人員由在大數據相關(guān)領(lǐng)域、課程建設以及實(shí)踐教學(xué)方面都有著(zhù)豐富的經(jīng)驗的教師與實(shí)驗室工作人員構成,同時(shí)與大數據企業(yè)進(jìn)行合作,獲得其核心技術(shù)人員的支持、培訓和大力配合,可以共同組成一個(gè)經(jīng)驗豐富、精煉實(shí)干的建設團隊。
(二)軟件調研
大數據的特點(diǎn)為4個(gè)“V”:第一,“Volume”,指的數據量大,包括大的數據塊,或數據總量巨大,從TB躍升到PB;第二,“Variety”,指的是數據種類(lèi)繁多,包含大量非結構化數據,例如網(wǎng)絡(luò )日志、音頻、視頻、地理信息等;第三,“Value”,價(jià)值稀疏性,大量數據中有價(jià)值數據很少;第四,“Velocity”,指的是處理速度快,這與傳統數據挖掘有很大區別。選擇有數據分析基礎、在業(yè)內發(fā)展領(lǐng)先的企業(yè)進(jìn)行調研并選擇適合高校規模的合作企業(yè)是建立實(shí)驗平臺的重要工作。
很多公司給出了可供使用的大數據平臺:IBM?誖 InfoSphere?誖BigInsightsTMBasic Edition是一款基于開(kāi)放源碼Apache Hadoop的分析平臺,用于分析大量本機格式的非常規數據,支持結構化、半結構化和非結構化內容,以實(shí)現最大程度的靈活性;IBM?誖InfoSphere?誖 Streams是一個(gè)高級計算平臺,幫助用戶(hù)開(kāi)發(fā)的應用程序快速攝取、分析和關(guān)聯(lián)來(lái)自數千個(gè)實(shí)時(shí)源的信息;惠普公司Vertica分析平臺6.1,能夠通過(guò)Hadoop分布式文件系統連接器來(lái)優(yōu)化大數據;ClearStory Data大數據分析新創(chuàng )公司,通過(guò)Clearstory,公司客戶(hù)可以將自身的數據與行業(yè)的公共數據融合,尋找統計上的新視角,目標是取代目前市場(chǎng)上的主流數據可視化工具,包括QlikView和Tableau等老牌工具;Informatica 9.1提供首款Hadoop編譯器Hparse,這是一種針對Hadoop而優(yōu)化的數據轉換環(huán)境,該軟件支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開(kāi)發(fā)人員提供了即開(kāi)即用的解析功能,以便處理復雜而多樣的數據源;Datameer:Hadoop海量數據分析平臺允許用戶(hù)在缺乏技術(shù)知識的情況下能夠分析大量數據;Infochimps平臺以其完備的基礎設施和專(zhuān)業(yè)知識,為客戶(hù)提供端到端的大數據解決方案,Infochimps是一家位于美國德克薩斯州奧斯丁的創(chuàng )業(yè)公司,2012年2月從數據市場(chǎng)轉型為大數據平臺提供商后獲得谷歌投資;甲骨文大數據機——Oracle Big Data Appliance集成系統融入了Cloudera的Distribution Including Apache Hadoop、Cloudera Manager和一個(gè)開(kāi)源R;微軟SQL Server新增PDW功能,可以幫助客戶(hù)擴展部屬數百TB級別數據的分析解決方案;亞馬遜將MapReduce作為一項服務(wù),其彈性MapReduce編程是一項能夠迅速擴展的Web服務(wù),運行在aws的亞馬遜彈性計算云和亞馬遜簡(jiǎn)單存儲服務(wù)上;Teradata是企業(yè)級數據倉庫(EDW)的領(lǐng)導者,在結構化數據、半結構化數據和大部分非結構化數據領(lǐng)域幾乎沒(méi)有很大成果,因此收購了Aster Data——一家提供SQL-MapReduce框架的公司。Aster Data是高級分析和管理各種非結構化數據領(lǐng)域的市場(chǎng)領(lǐng)導者和開(kāi)拓者,為T(mén)eradata帶來(lái)了大數據分析市場(chǎng)商機。
(三)方案實(shí)施
實(shí)驗平臺的設計同時(shí)立足于大數據技術(shù)的發(fā)展的前沿性與本學(xué)院學(xué)生專(zhuān)業(yè)特點(diǎn),與學(xué)生前序的理論、實(shí)踐課程均有良好的銜接,符合人才培養計劃,深化了教學(xué)大綱的內容,并針對不同專(zhuān)業(yè)學(xué)生設計實(shí)踐學(xué)時(shí)、內容和難度。
本實(shí)驗平臺可以同大數據行業(yè)中的公司科研部門(mén)共同合作建設,雙方確定在人才培養、師資培訓、共建實(shí)驗室和實(shí)訓基地、推動(dòng)大學(xué)生校外實(shí)習和社會(huì )實(shí)踐活動(dòng)的開(kāi)展等方面開(kāi)展全面、廣泛、長(cháng)期、深入的合作。該實(shí)驗室建設將豐富實(shí)踐教學(xué)體系,也可推動(dòng)學(xué)院科研項目立項、新課題研究、專(zhuān)項基金申請和聯(lián)合開(kāi)展商用項目開(kāi)發(fā)等;該實(shí)驗室使師生能接觸高新大數據開(kāi)發(fā)平臺,了解最新大數據技術(shù)的發(fā)展,進(jìn)行大數據平臺的開(kāi)發(fā),實(shí)現對大數據的分析、可視化演示,增強學(xué)生的動(dòng)手能力并提升就業(yè)質(zhì)量;與此同時(shí),提升了教師的項目管理能力和教學(xué)能力。
四、結論
實(shí)踐教學(xué)平臺建設是一項可以推動(dòng)課程建設和專(zhuān)業(yè)建設的可行工作,在轉變觀(guān)念、定位于應用型人才培養的今天,實(shí)踐教學(xué)平臺的建設更是一項必須的工作,而一個(gè)高水平的實(shí)驗平臺可以為教師們的教學(xué)和科研活動(dòng)提供良好的物質(zhì)保證,經(jīng)過(guò)大數據平臺建設可以使課程建設工作再上一個(gè)臺階,同時(shí)也會(huì )使教師們的研究水平更上一個(gè)臺階。
【信息管理專(zhuān)業(yè)建立大數據實(shí)驗平臺的思考論文】相關(guān)文章:
創(chuàng )新教育下高職院校建立實(shí)驗室信息管理平臺的分論文07-02
面向教育技術(shù)專(zhuān)業(yè)學(xué)生建立開(kāi)放性實(shí)驗室的思考論文07-03
大數據與信息管理論文04-06
環(huán)境科學(xué)綜合實(shí)驗平臺的構建與實(shí)驗改革初探論文01-28