資源描述:
《用于圖像場景分類的空間視覺詞袋模型》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第38卷第8期2011年8月計算機科學Vol.38NComputerScienceAug20用于圖像場景分類的空間視覺詞袋模型王宇新1郭(大連理工大學計算機科學與技術(shù)學院禾2何昌欽1馮振1,2賈棋2大連116023)1(大連理工大學軟件學院大連116620)2摘要以傳統(tǒng)的詞袋模型為基礎(chǔ),根據(jù)同類場景圖像具有空間相似性的特點,提出了一種用于圖像場景分類的空視覺詞袋模型。首先將圖像進行不同等級的空間劃分,針對對應(yīng)空間子區(qū)域進行特征提取和k均值聚類,形成該區(qū)的視覺關(guān)鍵詞,進而構(gòu)建整個訓練圖像集的空間視覺詞典。進行場景識別時,將所有空間子區(qū)域的視覺關(guān)鍵詞連接一個全局特征向量
2、進行相似度計算。最終的場景分類結(jié)果使用V1濾波器和PACT兩種特征在支持向量機LIBSV上獲得。關(guān)鍵詞場景分類,詞袋,空間聚類,空間視覺詞典,支持向量機中圖法分類號文獻標識碼TP301ABagofSpatialVisualWordsModelforSceneClassificationWANGYu-xin1GUOHe2HEChang-qin1FENGZhen1,2JIAQi2(SchoolofComputerScienceandTechnology,DalianUniversityofTechnology,Dalian116023,China)1(SchoolofS
3、oftware,DalianUniversityofTechnology,Dalian116620,China)2AbstractAnapproachtorecognizescenecategoriesbymeansofanovelmodelnamedbagofspatialvisualwordswaproposed.Imageswerehierarchicallydividedintosubregionsandthespatialvisualvocabularywasconstructedbgroupingthelow-levelfeaturescollected
4、fromeverycorrespondingspatialsubregionintoaspecifiednumberofclusteusingk-meansalgorithm.Torecognizethecategoryofascene,thevisualvocabularydistributionsofallspatialsubrgionswereconcatenatedtoformaglobalfeaturevector.TheclassificationresultwasobtainedusingLIBSVMandtwkindsoffeatureswereus
5、edintheexperiments:“V1-like”filtersandPACTfeatures.KeywordsSceneclassification,Bagofwords,Spatialclustering,Spatialvisualvocabulary,SVM人類視覺感知的一個顯著特點是能夠很快掌握一圖像所表達的含義。MaryPotter通過實驗證明,僅僅組快速的圖像流,觀察者也能識別出每一幅圖像的語和一些圖像中的對象及其屬性[6]。這種通過快速引言1隨著數(shù)碼設(shè)備的普及和信息存儲與傳輸技術(shù)的快速發(fā)展,圖像數(shù)據(jù)發(fā)生爆炸性增長。如何用計算機對大量且不斷增加的圖
6、像進行分析和理解,成為一項越來越緊迫的任務(wù)。因此基于內(nèi)容的檢索技術(shù)已成為國內(nèi)外研究的熱點,并成為21世紀初必須攻克的關(guān)鍵技術(shù)之一[1]。本文將重點關(guān)注圖像場景識別和分類問題。傳統(tǒng)的場景分類方法通常使用色彩、紋理和形狀等圖像底層視覺特征直接與監(jiān)督學習方法相結(jié)合進行圖像場景分類[2];或者對場景中的目標進行有效的分析,以完成場景的整體識別,具有代表性的如王濤、胡事民和孫家廣院士提出的基于顏色-空間特征的圖像檢索方法[3];或者采用文本主題模型的方法將圖像分類到不同的語義類別中:將圖像的局部不變特征聚類為一組視覺詞匯,并用詞袋(Bagofwords)模型來表示,最后用LD
7、A(LatentDirichletAllocation)[4]或PLSA(ProbabilisticLatentSmanticAnalysis)[5]等主題分析模型找出圖像的潛在語義和最可能屬于的主題,從而完成場景分類。200ms)觀察圖像所獲得的視覺和語義信息稱為圖[7]。在拍攝照片時,攝影師總是盡可能把能反映圖gist或者語義的對象和特征顯示在圖像中心。這一拍攝習大多數(shù)針對同類目標的圖像都有相同的拍攝角度,即像具有空間相似度。例如,許多城市的圖像是這樣一種高樓下面連接著人行橫道,而頂上是藍天;高速公路是大的平面向水平線方向延伸,期間充滿了一些凹凸。這果我們把