基于聚類算法的內(nèi)容識別研究.pdf

基于聚類算法的內(nèi)容識別研究.pdf

ID:57741701

大?。?69.18 KB

頁數(shù):3頁

時間:2020-03-26

基于聚類算法的內(nèi)容識別研究.pdf_第1頁
基于聚類算法的內(nèi)容識別研究.pdf_第2頁
基于聚類算法的內(nèi)容識別研究.pdf_第3頁
資源描述:

《基于聚類算法的內(nèi)容識別研究.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫

1、學(xué)術(shù)探討·信總碰腰基于聚類算法的內(nèi)容識別研究徐勇(吉林建筑大學(xué),吉林長春130118)[摘要]隨著互聯(lián)網(wǎng)內(nèi)容的快速增長,對于網(wǎng)絡(luò)內(nèi)容的快速識別壓力越來越大。本文進(jìn)行基于聚類算法的內(nèi)容識別研究,為維護(hù)網(wǎng)絡(luò)安全、網(wǎng)絡(luò)內(nèi)容健康,具有非常重要的意義。目前的互聯(lián)網(wǎng)內(nèi)容識別方式主要以關(guān)鍵字檢索方法進(jìn)行識別,但是面對日益豐富的網(wǎng)絡(luò)內(nèi)容和不同方式存儲在服務(wù)器的內(nèi)容,這種方式已經(jīng)無法滿足實際的需求。從實際問題出發(fā)針對互聯(lián)網(wǎng)內(nèi)容中以圖形、圖像、音頻等非結(jié)構(gòu)化數(shù)據(jù)形式存儲在服務(wù)器中的內(nèi)容進(jìn)行識別,依據(jù)互聯(lián)網(wǎng)內(nèi)容的發(fā)展規(guī)律對現(xiàn)有的聚類算法進(jìn)行改進(jìn),以求能夠最大程

2、度地對互聯(lián)網(wǎng)內(nèi)容進(jìn)行篩選和甄別,維護(hù)互聯(lián)網(wǎng)安全。[關(guān)鍵詞]數(shù)據(jù)挖掘;內(nèi)容識別;聚類分析;K-MEANS聚類算法改進(jìn)中圖分類號:TP393.06文獻(xiàn)標(biāo)識碼:A文章編號:1008.6609(2016)11-0039-03l前言面向?qū)ο髢?nèi)容識別過程中以單詞為單位的常規(guī)檢索方式,缺乏內(nèi)容時間序列上的關(guān)聯(lián),檢索效果大打折扣,尤其是對音視頻、圖片等非結(jié)構(gòu)數(shù)據(jù)的內(nèi)容識別,效果非常差。而由于K—MEANS聚類算法在處理大數(shù)據(jù)環(huán)境下內(nèi)容中的數(shù)據(jù)流方面存在著算法敏感,以及內(nèi)容識別效率和速度上的缺陷,因此,從網(wǎng)絡(luò)內(nèi)容格式類型的序列關(guān)系進(jìn)行K—MEANS聚類算法

3、的改進(jìn),使其能夠保持可接受的檢索速度和識別能力是本文重點研究方向。2非結(jié)構(gòu)化內(nèi)容識別方法隨著寬帶流量的提高,互聯(lián)網(wǎng)內(nèi)容日益豐富,非結(jié)構(gòu)化內(nèi)容如:音視頻、圖形圖像的文件越來越多。對于非結(jié)構(gòu)化內(nèi)容的識別方法主要包括以下幾個步驟:2.1分割分割是是實現(xiàn)非結(jié)構(gòu)化內(nèi)容識別的第一步,根據(jù)內(nèi)容的轉(zhuǎn)換邊界進(jìn)行分割,分割方法包括模板匹配法、直方圖法、邊緣檢測法、模型法、顏色柱狀圖法、運動矢量法以及基于多維空間仿生信息學(xué)理論的方法等。鏡頭邊界檢測作為視頻檢索的第一步具有重要意義,其結(jié)果將對整個視頻檢索結(jié)果產(chǎn)生直接的影響。2.2特征提取提取非結(jié)構(gòu)化對象基本信息

4、及動態(tài)信息,得到一個盡可能充分反映內(nèi)容的特征空間,這個特征空間將作為內(nèi)容識別依據(jù),內(nèi)容特征分為靜態(tài)特征和動態(tài)特征。靜態(tài)特征的提取主通常采用圖像特征提取方法,如提取顏色特征、紋理特征、形狀和邊緣特征等。動態(tài)特征是獲取動態(tài)特征的方法是運動估計,通過匹配算法估計出每個像素或區(qū)域的運動矢量,作為非結(jié)構(gòu)化數(shù)據(jù)的運動特征。2.3聚類高效的索引技術(shù)是基于內(nèi)容的檢索在大型數(shù)據(jù)庫中發(fā)揮優(yōu)勢的保證。索引技術(shù)隨著數(shù)據(jù)庫的發(fā)展而發(fā)展,提高索引效率有縮減特征向量的維度和聚類索引算法兩種方法,針對非結(jié)構(gòu)化內(nèi)容檢索需要3個步驟:(1)進(jìn)行維度縮減;(2)對存在的索引方

5、法進(jìn)行評價;(3)根據(jù)評價定制自己的索引方式。為了保證內(nèi)容識別的效率和準(zhǔn)確性,內(nèi)容識別的聚類算法尤為重要。3基于K均值聚類的內(nèi)容識別均值算法基于K均值聚類的內(nèi)容識別算法模型如下:(1)選取K個聚類中心作為服務(wù)器內(nèi)容樣本的K均值聚類算法迭代的聚類中心”。1,”:I,?,。:。(2)對于服務(wù)器內(nèi)容樣本x(設(shè)進(jìn)行到第K次迭代),如果Jx一礦I

6、一),男,吉林長春人,博士,副教授,研究方向為數(shù)據(jù)挖掘、人工智能、網(wǎng)絡(luò)安全。一39.學(xué)術(shù)探討·倩垂必露(4)如果礦“≠礦,U=1,2,?,動,則回到第2步,將全部服務(wù)器內(nèi)容樣本重新分類,重新迭代計算;如果”k.“=w?,ot=1,2,?,功,則結(jié)束。K均值偽代碼如下:設(shè)定聚類數(shù)目K,最大執(zhí)行步驟nIla】【,一個很小的容忍誤差£>0決定聚類中心起始位置CJ(O),00,起始位置Cj(O),0

7、I葺

8、一口訕I(yè)I;江l,?,K∥計算各數(shù)據(jù)點到聚類中心的距離)訓(xùn)i:』1‘a(chǎn)rgmin。K{豸’)//計算數(shù)據(jù)點屬于哪一聚類10,otherwise(隸屬度矩陣)if(E∞=擴(kuò)LJ卜”ll<占)(return();//循環(huán)終止)else{N∑C!=J21;i=1,?,K//更新聚類中心Eo)=lIc”一C(t-1)lI<占//進(jìn)行下一輪迭代}//endif}//endfor4基于K.MEANS聚類算法改進(jìn)的內(nèi)容識別4.1K-MEANS聚類改進(jìn)算法的數(shù)據(jù)處理現(xiàn)有的網(wǎng)絡(luò)內(nèi)容檢索方式逐漸從關(guān)鍵詞檢索轉(zhuǎn)向?qū)ο髾z索,也就是以內(nèi)容片段為輸入,從大量數(shù)據(jù)中找

9、出接近的內(nèi)容?,F(xiàn)行的互聯(lián)網(wǎng)基于關(guān)鍵詞的敏感內(nèi)容規(guī)避業(yè)務(wù)的選擇結(jié)果模式主要是采用雙向選擇模式,因此基于關(guān)鍵詞的敏感內(nèi)容規(guī)避業(yè)務(wù)挖掘也要遵循這樣的模式原則,選取服務(wù)器中基于關(guān)鍵詞的敏感內(nèi)容進(jìn)行規(guī)避

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。