決策樹(shù)算法在高職院校成績(jì)分析中的應用研究的論文
摘 要:高職院校的學(xué)生的成績(jì)是一項重要的數據,它不僅是對學(xué)生學(xué)習情況的評價(jià),也是對教師教學(xué)質(zhì)量的檢查。本文研究了使用決策樹(shù)算法對學(xué)生的成績(jì)進(jìn)行挖掘分析,分析學(xué)生的畢業(yè)設計成績(jì)與基礎類(lèi)課程、專(zhuān)業(yè)類(lèi)課程以及專(zhuān)項實(shí)踐類(lèi)課程之間隱藏的內在聯(lián)系,指導教師在今后的教學(xué)中加強學(xué)生實(shí)踐操作能力的訓練,進(jìn)而提高教學(xué)質(zhì)量。
關(guān)鍵詞:決策樹(shù); ID3算法; 數據挖掘 ;學(xué)生成績(jì)分析
1.引言
高職院校在多年的教學(xué)和管理工作中,積累了大量的教學(xué)管理數據,這些數據中蘊含了很多有價(jià)值的信息。如果利用數據挖掘技術(shù)對學(xué)院教務(wù)管理系統中教師和學(xué)生的數據進(jìn)行挖掘,可以使教師更好的把握學(xué)生、把握教學(xué)過(guò)程,實(shí)現教學(xué)過(guò)程動(dòng)態(tài)化管理,為學(xué)校合理設置課程、優(yōu)化教育資源配置、提高教學(xué)質(zhì)量提供可靠的數據依據,同時(shí)對提高學(xué)校教學(xué)和管理水平也有一定的幫助。[1]
數據挖掘(Data Mining),即數據庫中的知識發(fā)現,就是對龐大的數據集或數據庫進(jìn)行分析,挖掘出隱含的、未知的、用戶(hù)可能感興趣的和對決策有潛在價(jià)值的知識和規則,可以為用戶(hù)提供決策的依據[2]。決策樹(shù)算法是數據挖掘的核心算法之一,決策樹(shù)方法以樹(shù)型結構表達最終分類(lèi)結果的,也能生成If-Then形式的規則,便于使用者理解。
在教務(wù)管理系統中,學(xué)生的成績(jì)是一項重要的數據,它不僅是對學(xué)生學(xué)習情況的評價(jià),也是對教師教學(xué)質(zhì)量的.檢查。本文中研究使用決策樹(shù)算法對學(xué)生的成績(jì)進(jìn)行挖掘分析,全面地分析學(xué)生的畢業(yè)設計成績(jì)與實(shí)踐類(lèi)課程、專(zhuān)業(yè)類(lèi)及基礎類(lèi)課程中隱藏的內在聯(lián)系,體現出學(xué)生課程之間有一定的相互關(guān)聯(lián)關(guān)系,可以及時(shí)指導教師在以后的教學(xué)工作中采取恰當的方法,加強學(xué)生實(shí)踐操作能力的訓練,指導學(xué)生進(jìn)行專(zhuān)業(yè)、基礎類(lèi)課程的學(xué)習,提高教學(xué)質(zhì)量。
2.決策樹(shù)算法
2.1決策樹(shù)算法基本概念
決策樹(shù)是一種常用的、直觀(guān)的分類(lèi)歸納算法。決策樹(shù)是一種類(lèi)似流程圖的樹(shù)狀結構,根據層次的不同,結點(diǎn)分為根結點(diǎn)、內部結點(diǎn)和葉結點(diǎn)三種類(lèi)型。[3] 每個(gè)結點(diǎn)對應一個(gè)樣本集,樹(shù)的最高層結點(diǎn)就是根結點(diǎn),對應整個(gè)樣本集,內部結點(diǎn)對應一個(gè)類(lèi)標志。根結點(diǎn)和內部結點(diǎn)都包含一個(gè)對樣本屬性的測試,根據測試的結果將樣本集劃分為兩個(gè)或多個(gè)子集,每個(gè)子集生成一個(gè)分支,分支用測試屬性值來(lái)標識。葉結點(diǎn)包含一個(gè)類(lèi)標志,表示對應樣本集的類(lèi)別。決策樹(shù)的中間結點(diǎn)通常用矩形表示;而葉子結點(diǎn)常用橢圓表示。
決策樹(shù)的構造包括兩個(gè)步驟,一是生成決策樹(shù),二是進(jìn)行剪枝。決策樹(shù)的生成是從一個(gè)根結點(diǎn)開(kāi)始,從下到下的遞歸過(guò)程,通過(guò)不斷地將訓練樣本分割成子集來(lái)構造決策樹(shù),從根結點(diǎn)開(kāi)始對該樣本的屬性進(jìn)行測試,根據測試結果確定下一個(gè)結點(diǎn),直至到達葉結點(diǎn)為止。決策樹(shù)的剪枝是對樹(shù)結構進(jìn)行修剪,刪除多余分支的過(guò)程,得到一棵最小期望錯誤率的決策樹(shù)。
2.2 ID3算法
ID3算法是決策樹(shù)學(xué)習算法中最有影響力、使用最廣泛的一種決策樹(shù)算法。ID3的基本思想是自頂向下遞歸地使用搜索訓練樣本集,是一種典型的貪心算法,在決策樹(shù)的每個(gè)結點(diǎn)處測試每一個(gè)屬性,用信息增益作為屬性的選擇標準,選擇信息增益最大的屬性作為決策樹(shù)結點(diǎn),從而構建決策樹(shù)。[4]在算法中,在決策樹(shù)結點(diǎn)屬性的選擇上使用信息論中熵(Entropy)的概念來(lái)完成。
2.2.1 信息熵
信息熵是各自信息量的期望,用信息熵可以用來(lái)度量整個(gè)信息源X整體的不確性。設樣本數據集為X, n是信號源所有可能的符號數,ai是可能取到的值,P(ai)是取值為ai的概率。其信息熵如下:
2.2.3平均信息增益
信息增益表示兩個(gè)信息量之間的差值,在進(jìn)行分類(lèi)屬性的選擇時(shí),應該選擇最大的信息增益作為分類(lèi)屬性。信息增益如下:
Gain(XY)= H(X)-H(XY)
3.決策樹(shù)算法在教學(xué)質(zhì)量分析中的應用
學(xué)生的畢業(yè)設計通常是學(xué)生對三年來(lái)所學(xué)的各種基礎素養類(lèi)課程、專(zhuān)業(yè)類(lèi)課程、專(zhuān)項實(shí)踐類(lèi)課程的綜合掌握,是體現一個(gè)學(xué)生的綜合素質(zhì)的重要依據,也是教師培養學(xué)生的教學(xué)質(zhì)量的重要體現。因此,通過(guò)對學(xué)生的畢業(yè)設計和各種基礎課、專(zhuān)業(yè)課及專(zhuān)業(yè)實(shí)踐課的考試成績(jì)的挖掘,分析出其中的關(guān)系,為今后教師調整教學(xué)方案提供依據。
決策樹(shù)算法對學(xué)生成績(jì)進(jìn)行分析,是將決策樹(shù)的相關(guān)算法應用于學(xué)生成績(jì)挖掘,對大量的考試成績(jì)數據進(jìn)行分析,從而更好的分析和預測成績(jì)數據。[5]其主要過(guò)程如下:
3.1數據收集
數據收集階段主要工作是從教務(wù)管理系統中收集與挖掘相關(guān)的學(xué)生成績(jì)數據,并進(jìn)行簡(jiǎn)單的統計分析,檢查這些學(xué)生成績(jì)數據是否完整。
在進(jìn)行數據挖掘之前,主要收集了我院2008級軟件技術(shù)專(zhuān)業(yè)0801班42名學(xué)生不同學(xué)期的課程成績(jì)作為原始數據,一共選擇了9門(mén)課程。學(xué)生成績(jì)表的主要內容包括學(xué)號及各門(mén)課程成績(jì)。進(jìn)行分類(lèi)整理后,得到學(xué)生成績(jì)數據表。
學(xué)號
計算機網(wǎng)絡(luò )基礎
C語(yǔ)言程序設計
WEB開(kāi)發(fā)技術(shù)
數據庫原理與應用
ASP.NET程序設計
C#程序設計
數據庫設計與開(kāi)發(fā)
基于C#的ASP.NET應用程序設計
基于C#的Windows應用程序設計
畢業(yè)設計
100080563
80
80
76
74
90
89
良好
良好
良好
中等
100080575
85
86
88
76
92
94
良好
優(yōu)秀
優(yōu)秀
優(yōu)秀
100080593
60
75
95
69
79
80
中等
及格
及格
及格
……
其中計算機網(wǎng)絡(luò )基礎、C語(yǔ)言程序設計、WEB開(kāi)發(fā)技術(shù)三門(mén)為基礎類(lèi)課程,數據庫原理與應用、ASP.NET程序設計、C#程序設計三門(mén)為專(zhuān)業(yè)類(lèi)課程,數據庫設計與開(kāi)發(fā)、基于C#的ASP.NET應用程序設計、基于C#的Windows應用程序設計三門(mén)為專(zhuān)項實(shí)踐類(lèi)課程。
3.2數據預處理
數據預處理的主要工作就是檢查數據庫中不完整的、含噪聲的,不一致的的數據,并且進(jìn)行清理,除去噪音,填補記錄中遺漏的數據值、刪除無(wú)效數據等,提高挖掘算法的精度和有效性。并且要對數據進(jìn)行轉換,生成新的屬性或記錄,使之適合數據挖掘處理的格式,預處理后的數據可以節省數據處理的時(shí)間。
在學(xué)生成績(jì)表中,對學(xué)生因缺考、緩考、違紀、休學(xué)、退學(xué)等情況產(chǎn)生的成績(jì)記錄的缺失,可考慮進(jìn)行清理,刪除這些記錄,確保表格數據的完整。最后形成有效數據共42條記錄。
3.3數據轉換
將收集到的數據信息轉換為一個(gè)數據模型, 決策樹(shù)算法中使用的是離散型數據,學(xué)生成績(jì)是連續型的,因此,要將其數據屬性進(jìn)行離散化處理。
學(xué)生成績(jì)的成績(jì)評價(jià)指標可分為三個(gè)等級,A:85-100(優(yōu)秀),B:70-84(良好),C:69以下(一般)。離散化后的學(xué)生成績(jì)表如下圖所示:
學(xué)號
基礎課
專(zhuān)業(yè)課
專(zhuān)項實(shí)踐課
畢業(yè)設計
100080563
B
B
B
B
100080575
A
A
A
A
100080593
B
C
C
C
……
3.4 數據分類(lèi)挖掘
根據生成的分析模型,利用決策樹(shù)算法對數據進(jìn)行挖掘,具體情況如下。
學(xué)生成績(jì)表中樣本類(lèi)別屬性為畢業(yè)設計,首先計算出畢業(yè)設計的信息熵。畢業(yè)設計成績(jì)分為A(優(yōu)秀)、B(良好)、C(一般)三種類(lèi)別,其中優(yōu)秀為3人,良好為28人,一般為11人,根據公式計算其信息熵如下:
。3)根據專(zhuān)項實(shí)踐課成績(jì)計算條件熵。
專(zhuān)項實(shí)踐課成績(jì)?yōu)?quot;A"人數為7人。其中畢業(yè)設計成績(jì)?yōu)?quot;A"的2人,為"B"的5人,為"C"的0人。專(zhuān)項實(shí)踐課成績(jì)?yōu)?quot;B"人數為25人,其中畢業(yè)設計成績(jì)?yōu)?quot;A"的1人,為"B"的16人,為"C"的8人。專(zhuān)項實(shí)踐課成績(jì)?yōu)?quot;C"人數為10人。其中畢業(yè)設計成績(jì)?yōu)?quot;A"的0人,為"B"的7人,為"C"的3人。因此其條件熵為:
H(X專(zhuān)項實(shí)踐課)=
=1.022
其信息增益為:
Gain(專(zhuān)項實(shí)踐課)=1.168-1.022=0.146
由上述計算可見(jiàn),專(zhuān)項實(shí)踐課成績(jì)屬性所獲得的信息增益最大,被作為根結點(diǎn),并依次取專(zhuān)業(yè)課成績(jì)、基礎課成績(jì)屬性做為分支結點(diǎn)。通過(guò)構造和剪枝后,形成如圖所示的決策樹(shù):
3.5 結果分析
通過(guò)對上述決策樹(shù)的分析,可得出如下結論:
專(zhuān)項實(shí)踐、專(zhuān)業(yè)課、基礎課成績(jì)均優(yōu)秀的同學(xué),畢業(yè)設計成績(jì)優(yōu)秀。專(zhuān)項實(shí)踐優(yōu)秀、專(zhuān)業(yè)課成績(jì)一般的同學(xué),無(wú)論基礎課成績(jì)如何,畢業(yè)設計成績(jì)均為一般。由決策樹(shù)分析可見(jiàn),專(zhuān)項實(shí)踐、專(zhuān)業(yè)課、基礎課在學(xué)生的綜合素質(zhì)的培養中起到了不同程度的作用。專(zhuān)項實(shí)踐課對學(xué)生的綜合能力的培養有重要的影響,但不是絕對因素,基礎課和專(zhuān)業(yè)課的教學(xué)安排,對學(xué)生的實(shí)踐能力的訓練起到了很大的支撐作用。因此,在專(zhuān)業(yè)的課程安排和教師的教學(xué)組織中,要注重學(xué)生的知識的學(xué)習與技能的訓練的有機結合,提高學(xué)生的綜合能力。
4.結束語(yǔ)
利用決策樹(shù)分類(lèi)算法的ID3 算法對學(xué)生的成績(jì)進(jìn)行分析,構造出學(xué)生成績(jì)分析決策樹(shù),可以挖掘出學(xué)生的畢業(yè)設計成績(jì)與基礎課程、專(zhuān)業(yè)課程、專(zhuān)項實(shí)踐課程之間的隱藏關(guān)系,同時(shí)也挖掘出各類(lèi)課程的學(xué)習對學(xué)生綜合素質(zhì)培養的影響。教師可以根據分析結果在今后的教學(xué)過(guò)程中,注重加強學(xué)生的專(zhuān)業(yè)能力培養、實(shí)踐能力訓練,培養出合格的高端技能型人才。
參考文獻:
[1]丁智斌,袁方,董賀偉.數據挖掘在高校學(xué)生學(xué)習成績(jì)分析中的應用[J].計算機工程與設計.2006.2(590-592)
[2]邵峰晶,于忠清,王金龍,孫仁誠. 數據挖掘原理與算法[M].北京:科學(xué)出版社.2009.
[3]陳安,陳寧,周龍驤.數據挖掘技術(shù)及應用[M].北京:科學(xué)出版社.2006.
[4]廖芹,郝志峰,陳志宏.數據挖掘與數學(xué)建模[M].北京:國防工業(yè)出版社.2010.
[5]邢曉宇,余建坤,陳磊.決策樹(shù)算法在學(xué)生考試成績(jì)中的應用[J].云南民族大學(xué)學(xué)報(自然科學(xué)版).2009.1(77-80)
【決策樹(shù)算法在高職院校成績(jì)分析中的應用研究的論文】相關(guān)文章:
高職院校中的創(chuàng )業(yè)教育論文12-10
高職院校體育文化的定位分析論文10-04
淺析高職院校中的創(chuàng )業(yè)教育論文12-10
高職院校體育教學(xué)中的研究論文10-16