資源描述:
《基于語義聚類的web服務發(fā)現機制》由會員上傳分享,免費在線閱讀,更多相關內容在工程資料-天天文庫。
1、基于語義聚類的Web服務發(fā)現機制摘要:本文提出了一種基于語義聚類算法的兩階段之類的技術不適合于處理大規(guī)模文檔集合,因為SVD的存儲和計算成功太高?! 〉诙?關鍵詞不足以表達語義概念。部分原因是關鍵詞通常使用自然語言描述。自然語言中大量存在的同義詞使得查全率降低,大量存在的多義詞導致查準率降低。因此,查到的服務可能完全與期望的服務無關。為了解決這個問題,研究人員提出了語義o技術[6],通過計算查詢和服務之間的相似度,可以首先從Inter上獲得一個Web服務樣本集。考慮這個可能性:初始獲得服務集可能包含一些與用戶查詢無關的數據,因此為了提高服務發(fā)現的效率和降低計算成本,有必要清除這些無關數據。因為
2、一方面,這些數據可能降低算法的準確性,另一方面,會增加計算負擔。因此,本文提出的Web發(fā)現機制的第一階段就是要清除這些無關數據。 幾種方法可以用來清除這些無關數據。一種可能的方案是,基于特征值選取,如[5]。這種方法,首先設置一個數字閾值,然后計算數據對象出現在集合中的個數和次數。如果這個數值小于預先定義的閾值,這個對象被視作一個無關數據,被清除?! ”疚氖褂靡粋€不同的方法清除無關服務數據。這個方法包含兩個步驟:首先使用聚類算法將初始服務集劃分成不同的簇,并計算出簇中心;接下來,計算每個數據對象與每個簇中心的距離,如果距離大于預先定義的閾值u,這個數據對象被視作無關數據,應當清除?! 《x1
3、:假設對于查詢q,返回w個服務S={s1,s2,…,sw},聚類S到k個簇C={c1,c2,…,ck}。如果滿足,,,ε是一個預先定義的閾值,cj是聚類的中心,清除服務si?! ”疚牟捎玫木垲愃惴ㄊ莐均值算法,服務集S被分為k個簇cj,每一個簇的中心被表示為:,這里
4、cj
5、表示的是簇cj的數據個數?! 祿痛刂行牡木嚯x采用歐式距離公式計算: 下面的目標函數被用來表示聚類的質量: 一直運用k平均值算法,直到目標函數達到最小值?! ?.2基于PLSI的服務發(fā)現 本文提出的Web服務發(fā)現機制的第二階段基于主題模型。主題模型的核心思想是認為一個文檔是由一系列的主題分布組成的,而每個主題又是由一
6、系列的關鍵詞組成。區(qū)別于傳統(tǒng)bagofwords模型,主題模型強調文檔是由文檔—主題—關鍵詞3層關系組成,而不僅僅是文檔—關鍵詞,即文檔不是僅有單個主題組成,而是由多個主題組成。主題模型是一種生成概率模型,可以應用于文本數據、圖像、生物圖像以及其它多維數據的識別、分類和數據挖掘。