論文:主分量分析和線(xiàn)性判別分析在分類(lèi)問(wèn)題中的應用
【摘 要】對于維數較多的研究對象,為了研究的方便,總希望先將維數降低。主分量分析(PCA)和Fisher線(xiàn)性判別分析(FDA)是廣泛應用于模式識別各個(gè)領(lǐng)域的兩種常用方法。本文先利用主分量分析,將原始數據維數降低,然后再利用Fisher線(xiàn)性判別分析將維數再次降低,得到低維的數據,實(shí)驗結果表明了兩種方法結合的有效性。
【關(guān)鍵詞】主分量分析;Fisher線(xiàn)性判別;距離判別法
【Abstract】As to an object of multi dimension, we always hope to make its dimension reduced in order to facilitate the study on it。 Principal component analysis and Fisher linear discriminant analysis are two common methods widely used in various fields of pattern recognition。 This article reduced the dimension of original data, by the principal component analysis at first, and then use Fisher linear discriminant analysis to reduce the dimension once again, obtaining lower-dimensional data, finally experimental results demonstrated the effectiveness of two methods’ combination。
【Key words】Principle compoment analysis; Fisher linear discriminant analysis; A method of differentiating distances
引言
在生產(chǎn)p科研和日常生活中我們經(jīng)常會(huì )遇到判別分類(lèi)問(wèn)題,在這些問(wèn)題中,已經(jīng)知道研究對象可以分為幾個(gè)類(lèi),而且對這些類(lèi)別也已經(jīng)作了一些觀(guān)測,取得了一批樣本數據。 我們需要對這些數據進(jìn)行處理,找到不同類(lèi)別之間的顯著(zhù)性區別和判別方法。
1 主分量分析和線(xiàn)性判別分析的原理
主分量分析的基本原理:把原來(lái)多個(gè)變量劃為少數幾個(gè)綜合指標的一種統計分析方法,是一降維處理技術(shù)。主分量分析的基本思想:主分量分析是設法將原來(lái)眾多具有一定相關(guān)性的指標(比如p個(gè)指標),重新組合成一組新的互相無(wú)關(guān)的綜合指標來(lái)代替原來(lái)的指標。通常數學(xué)上的處理就是將原來(lái)p個(gè)指標作線(xiàn)性組合,作為新的綜合指標 [3]。
Fisher線(xiàn)性判別分析的基本原理:將高維空間中的類(lèi)映射到低維空間,并且要求在低維空間類(lèi)與類(lèi)之間較好區分,是一降維處理技術(shù)。Fisher線(xiàn)性判別分析的基本思想:對于多個(gè)類(lèi)來(lái)講,我們希望類(lèi)內離散度越小越好,類(lèi)間離散度越大越好。對于原始的類(lèi),我們想通過(guò)將其投影到低維空間,并且要求經(jīng)過(guò)投影后達到類(lèi)內離散度最小,類(lèi)間離散度最大。在投影的過(guò)程中,如果投影到一維空間效果不是很好,我們可以將其維數增多[4]。
2 實(shí)例
現對三類(lèi)品種的鳶尾屬(Iris)植物進(jìn)行研究,希望通過(guò)研究鳶尾屬植物的幾個(gè)主要指標,可以將一個(gè)未知樣本進(jìn)行歸類(lèi)。對鳶尾屬植物的四個(gè)指標進(jìn)行了統計。對統計數據作如下變換:
、賹λ袠颖緮祿⺋進(jìn)行中心化標準化。
、趯μ幚砗蟮臄祿蠼庀嚓P(guān)系數矩陣R得
、矍蠼釸的特征值λi和特征向量ei。
由上表可以看出,前三個(gè)特征值的累積貢獻率已達到99。485%,所以我們選取前三個(gè)特征值所對應的特征向量為主成分,這樣我們就將四維空間降到三維空間。原始數據經(jīng)過(guò)主分量分析,位數降低,得到變換Y=X*E。
經(jīng)過(guò)主分量分析,原始數據已經(jīng)降到三維,我們將對得到的三維空間里的數據再次進(jìn)行降維處理。我們選取各類(lèi)中的前40個(gè)樣本代表該類(lèi)進(jìn)行研究。
、芊謩e計算出各類(lèi)的.樣本均值mk和所有樣本的均值m
、萦嬎泐(lèi)內離散度矩陣Sw和類(lèi)間離散度矩陣Sb
、抻嬎鉙b和Sw的廣義特征值和特征向量
、邔進(jìn)行Fisher線(xiàn)性判別,得到變換Z=Y*W。
、嘤嬎憬(jīng)過(guò)變換后所得到的類(lèi)的均值
通過(guò)主分量分析和Fisher線(xiàn)性判別,我們將樣本由四維空間降到一維空間。由上面的計算,我們可以得到公式Z=X*E*W。
隨機選取45個(gè)樣本得到樣本組x,在選取樣本時(shí),前15個(gè)樣本是從第一類(lèi)中抽取的,中間15個(gè)樣本是從第二類(lèi)中抽取的,最后15個(gè)樣本是從第三類(lèi)中抽取的。我們首先對需要判別的樣本進(jìn)行變換, 然后分別計算這45個(gè)樣本到三類(lèi)均值的距離
表2中加粗的數字表示該樣本距離某類(lèi)均值距離最小,也就是樣本屬于這個(gè)類(lèi)。判別結果為前15個(gè)樣本判為第一類(lèi),中間16個(gè)樣本判為第二類(lèi),最后14個(gè)樣本判為第三類(lèi)。其中第31個(gè)樣本通過(guò)距離判別判為第二類(lèi),而這個(gè)樣本是從第三類(lèi)中抽取的;其他樣本判別均正確。在這次判別中,錯誤率為1/45,我們認為判別是比較合理的。對所有的樣本都進(jìn)行分類(lèi)判別,其錯誤率為4/150,我們認為對數據的處理以及距離判別的方法是比較合理的。
3 小結
我們在研究鳶尾屬植物的三個(gè)品種時(shí),首先運用主分量分析,在這個(gè)過(guò)程中維數降低了一維,但我們保留了99。485%的原有信息,可以說(shuō)這一數據變換很有意義。在主分量分析之后,我們再運用Fisher線(xiàn)性判別分析,將數據進(jìn)行投影,投影到一維空間。然后我們選取了45個(gè)樣本進(jìn)行分類(lèi)判別時(shí),判別結果比較理想,從而驗證了兩次降維處理的有效性和距離判別的可行性。
【論文:主分量分析和線(xiàn)性判別分析在分類(lèi)問(wèn)題中的應用】相關(guān)文章:
大跨度橋梁非線(xiàn)性分析的論文04-27
垃圾分類(lèi)現狀分析論文08-03
論文:磁記錄和標準在磁卡分析中的應用06-19
WEBVR和RIA技術(shù)在新媒體中的應用分析論文06-12
“擴倍法”在小學(xué)數學(xué)解題中的應用論文06-22
論文:納米涂料發(fā)展與應用分析06-28
數學(xué)應用意識分析的論文06-22
分析非線(xiàn)編輯機的應用論文06-12