資源描述:
《基于加權策略的SVM多元分類器》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、基于加權策略的SVM多元分類器華南理工大學信息網絡工程研究中心廣東省計算機網絡重點實驗室曹鴻董守斌張凌全國搜索引擎與網上信息學術研討會目錄算法描述傳統(tǒng)一對多(OVA)方法加權閾值策略(OVA-WWT)系統(tǒng)模塊實驗結果結論傳統(tǒng)OVA(One-Vs-All)方法:主要思路主要思路訓練N個不同的二元分類器,第i個分類器用第i類中的訓練樣本作為正的訓練樣本,而將其他樣本作為負的訓練樣本當對一個新文檔進行分類時,分別運行N個二元分類器,選擇輸出相似度值最大的那個分類器的結果傳統(tǒng)一對多(OVA)方法:形式化描述給定個l訓練樣例(,),…(,),其中,i=1,…l,且是xi的類標簽,
2、則第i個SVM分類器要解決下面的最優(yōu)化問題:用下面的k個決策方程計算x與k個類別的相似度:最終判定x隸屬于決策方程輸出相似度最高的那個類別:Classofx=閾值策略閾值策略:把一篇文檔歸屬到某些相關類別中的方法RCut、PCut和SCut傳統(tǒng)OVA使用的是RCut策略傳統(tǒng)一對多(OVA)方法:缺點1)比較文檔對N個類別的相似度,簡單地取相似度最大的那個類別,由于這N個相似度是由N個不同的分類器產生,簡單地取最大值作為閾值策略并不合適;2)對所有類別一視同仁,而實際上,有些類別屬于“弱勢類”,其類別信息容易被“強勢類”所淹沒,導致“弱勢類”文檔被誤分到“強勢類”中的不公
3、平現(xiàn)象。本文對OVA的改進提出加權閾值策略(WeightedRCut:WRCut)通過給不同類別的相似度結果賦以一定的權重值后再進行比較,實現(xiàn)“弱勢類”和“強勢類”之間的勢力均衡,以消除使用單一的RCut策略所造成的不公平現(xiàn)象目錄算法描述傳統(tǒng)一對多(OVA)方法加權閾值策略(OVA-WWT)系統(tǒng)模塊實驗結果結論加權閾值策略(OVA-WWT)算法描述:先解SVM最優(yōu)化問題,用決策方程計算出文檔對N個類別的相似度,再對各類別運用WRCut閾值策略,文檔x屬于加權相似度最大的類別Classofx=ai也可以通過對訓練集的學習而得。目錄傳統(tǒng)一對多(OVA)方法加權閾值策略(OV
4、A-WWT)系統(tǒng)模塊實驗結果結論系統(tǒng)模塊結構目錄算法描述傳統(tǒng)一對多(OVA)方法加權閾值策略(OVA-WWT)系統(tǒng)模塊實驗結果結論實驗結果數據集:北京大學網絡實驗室提供的CWT100G數據集之200M訓練集(11個類別)模型:200M數據的2/3用于構建分類器模型,剩余1/3作開放測試集進行分類測試。SVM使用線性核函數。評測標準:微平均準確率、宏平均準確率、宏平均召回率、宏平均F1值和時間,其中時間是包括訓練和分類的總時間實驗結果1:分類器的比較(1)分類方法微平均準確率(%)宏平均準確率(%)宏平均召回率(%)宏平均F1(%)時間(s)SVMmultic64.352
5、7.1925.6526.401795.53SVMTorch44.3575.6135.9548.7325034.3RainbowSVM80.1376.9575.7376.3313205.5MSVMlight88.6490.7085.9988.311108.5實驗結果1:分類器的比較(2)性能曲線圖時間柱狀圖實驗2:閾值策略的比較(1)對WRCut中各類別的權重值,本文將訓練集隨機劃分為訓練-訓練集(占3/4)和訓練-測試集(占1/4),從經驗值出發(fā),在反復訓練的過程中自動調整權重值。權重調整范圍為0.9~1.9,每個類的權重分別遞增0.1,當權重的增加使得精度下降時,該權
6、重減0.1,取宏觀F1達到最大值時各類別所得權重,總訓練時間為58.587秒,這個時間對總訓練時間而言是可忽略的。實驗2:閾值策略的比較(2)類別編號類別權重值01人文與藝術1.903商業(yè)與經濟1.704娛樂與休閑1.905計算機與因特網1.907教育1.908各國風情0.910自然科學0.911政府與政治1.912社會科學1.913醫(yī)療與健康1.914社會與文化1.1經過學習得到的11個類別各自的權重值實驗2:閾值策略的比較(3)RCut策略與WRCut策略精度比較曲線目錄算法描述傳統(tǒng)一對多(OVA)方法加權閾值策略(OVA-WWT)系統(tǒng)模塊實驗結果結論結論本文提出了
7、一對多算法的改進版本OVA-WWT算法基于OVA-WWT和SVMlight二元分類算法,實現(xiàn)了SVMlight的多元分類器MSVMlight。在CWT100G上進行了一系列開放性實驗,通過與多種分類器進行性能比較,證明對CWT100G數據集而言,MSVMlight在準確率和時間性能要優(yōu)于其他三種分類器。針對CWT100G數據集進行閾值策略選擇實驗,結果表明,OVA-WWT算法比OVA算法精度要高缺點:類別權重的訓練需要花費額外時間,但是對于大規(guī)模數據的訓練和分類而言,以可忽略的時間換來精度的顯著提高是值得的謝謝大家!