資源描述:
《優(yōu)化子空間的高維聚類算法-論文.pdf》由會員上傳分享,免費在線閱讀,更多相關內容在應用文檔-天天文庫。
1、JournalofComputerApplicationsISSN1001。90812014.O8.1O計算機應用,2014,34(8):2279—2284CODENJYIIDUhttp://www.joca.cn文章編號:1001-9081(2014)08-2279.06doi:10.11772/j.issn.1001—9081.2014.08.2279優(yōu)化子空間的高維聚類算法吳濤,陳黎飛,郭躬德(福建師范大學數學與計算機科學學院,福州350007)(通信作者電子郵箱elfei@fjnn.edu.cn)
2、摘要:針對當前大多數典型軟子空間聚類算法未能考慮簇類投影子空間的優(yōu)化問題,提出一種新的軟子空間聚類算法。該算法將最大化權重之間的差異性作為予空間優(yōu)化的目標,并提出了一個量化公式。以此為基礎設計了一個新的優(yōu)化目標函數,在最小化簇內緊湊度的同時,優(yōu)化每個簇所在的軟子空間。通過數學推導得到了新的特征權重計算方法,并基于k-means算法框架定義了新聚類算法。實驗結果表明,所提算法對子空間的優(yōu)化降低了算法過早陷入局部最優(yōu)的可能性,提高了算法的穩(wěn)定性,并且具有良好的性能和聚類效果,適合用于高維數據聚類分析。關鍵詞:
3、高維數據;聚類;子空問優(yōu)化;特征權重;差異中圖分類號:TP181文獻標志碼:AHigh·dimensionaldataclusteringalgorithmwithsubspaceoptimizationWUTao.CHENLifei.GUOGongde(SchoolofMathematicsandComputerScience,F(xiàn)ujianNormalUniversity,FuzhouFujian350007,China)Abstract:Anewsoftsubspaceclusteringalgori
4、thmwasproposedtoaddresstheoptimizationproblemfortheprojectedsubspaces,whichwasgenerallynotconsideredinmostoftheexistingsoftsubspaceclusteringalgorithms.Maximizingthedeviationoffeatureweightswasproposedasthesub·spaceoptimizationgoal,andaquantitativeformula
5、waspresented.Basedontheabove,anewoptimizationobjectivefunctionwasdesignedwhichaimedatminimizingthewithin-clustercompactnesswhileoptimizingthesoftsubspaceassociatedwitheachcluster.Anewexpressionforfeature—weightcomputationwasmathematicallyderived,withwhich
6、thenewclusteringalgorithmwasdefinedbasedontheframeworkoftheclassicalk-means.Theexperimentalresultsshowthattheproposedmethodsignificantlyreducestheprobabilityoftrappinginlocaloptimumprematurelyandimprovesthestabilityofclusteringresults.Andithasgoodperforma
7、nceandclusteringeficiency,whichissuitableforhigh-dimensionaldataclusteranalysis.Keywords:high—dimensionaldata;clustering;subspaceoptimization;featureweight;deviation2005年1O月的IEEE數據挖掘國際會議上,高維數據的處理0引言被認為是當前數據挖掘研究領域中十大挑戰(zhàn)性課題之一J。聚類作為數據挖掘研究的一種重要手段,目的是將給定在高維數據中,
8、簇類可能與不同的特征子空間相關的一個數據集劃分成多個簇,使得同一簇內的樣本盡量相似,聯(lián)J。文獻[9]中定義的子空間可以分為硬子空間(Hard而與其他簇中的樣本相異較大I2。目前,聚類分析已經在Subspace)和軟子空間(SoftSubspace)兩種類型。本文研究軟許多領域獲得廣泛應用,如模式識別、文本挖掘、機器學習、網子空間,它已在統(tǒng)計學和數據挖掘領域獲得了廣泛的關注。絡搜索、基因表達、顧客區(qū)分和圖像處理等。目前,基于軟子