資源描述:
《基于 google 搜索路徑的課程信息垂直搜索引》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、基于Google搜索路徑的課程信息垂直搜索引【摘要】課程信息垂直搜索引擎,即在課程信息這個(gè)特定的領(lǐng)域里,讓用戶能搜索到最精準(zhǔn)最全面的結(jié)果。本文利用Google發(fā)現(xiàn)“學(xué)校-學(xué)院-教師-課程”路徑,利用HTMLParser進(jìn)行基于UC[5]、CoNLL[6]、ACE[7]、SIGHAN[8]等。就本文而言,實(shí)體“課程”包括以下屬性:課程名稱、學(xué)院、學(xué)校、教師、教師主頁URL,課程鏈接以及課程簡介。本文的NE識(shí)別方法為基于LParser編寫包裝器進(jìn)行基于WEB頁面結(jié)構(gòu)分析的課程元數(shù)據(jù)信息抽取。第2節(jié)介紹了本
2、文的總體思路與核心算法,重點(diǎn)介紹了抓取網(wǎng)頁的基類,并以卡耐基-梅隆大學(xué)的生態(tài)環(huán)境研究學(xué)院為例,具體敘述了專門為該學(xué)院編寫的包裝器。第3節(jié)評(píng)測了算法的查全率,查準(zhǔn)率和F-度量,分析了本文算法的性能。第4節(jié)簡單介紹了本文涉及的實(shí)現(xiàn)技術(shù)。最后,對(duì)本文的性能和擴(kuò)展做了小結(jié),指出了針對(duì)本文改進(jìn)和發(fā)展的方向。2.1利用Google發(fā)現(xiàn)搜索路徑課程的自然組織形式為從大學(xué)、學(xué)院、教師再到課程或者從大學(xué)、學(xué)院直接到課程。因此,本文利用GoogleAJAXSearchAPI以及Google的高級(jí)搜索語法按以下兩種順序之一
3、來發(fā)現(xiàn)課程信息:(1)學(xué)?!鷮W(xué)院→教師→課程(2)學(xué)?!鷮W(xué)院→課程2.1.1GoogleAPI和高級(jí)搜索語法如圖1所示,為本文設(shè)計(jì)的基于Google的路徑發(fā)現(xiàn)頁面有兩個(gè)輸入框,keyeKeyeKeyeType”,表示過濾文件類型為“someType”的結(jié)果?!癷ntitle:someKeyeKeyu”,site留空。第一個(gè)得到的結(jié)果即為.cmu.edu/(2)學(xué)院在keyentalcmu”,site留空。第一個(gè)結(jié)果即為.ce.cmu.edu/(3)課程信息頁面:在keyu.edu”。得到2007-co
4、urse-list和2008-course-list的URL地址。(4)教師信息頁面:在keyu.edu”。得到falculty的URL地址。2.2LParser,使用的版本為1.6。HTMLParser是一個(gè)簡單而功能強(qiáng)大的JavaHTML解析器庫,可以分析和處理LParser的分析器parser,設(shè)置編碼方式2.根據(jù)WEB頁面結(jié)構(gòu)選擇適合的Filter,比如本頁面要提取課程簡介,則該節(jié)點(diǎn)必定含有關(guān)鍵詞Description,因此選用StringFiltercoursefilter=neental.
5、java繼承(extends)于Extractor.java主要包括兩個(gè)函數(shù):(1)getTeachers(),通過分析WEB頁面結(jié)構(gòu)獲得教師信息,并存儲(chǔ)于teacherList,偽代碼見圖3:1.初始化teacherList,數(shù)據(jù),類型為ArrayList2.根據(jù)U根據(jù)卡耐基梅隆大學(xué)課程編號(hào)的統(tǒng)一形式,用正則匹配[0-9]{2}-[0-9]{3},(即判斷索引中的name域的值是否以“兩個(gè)數(shù)字”+“-”+“三個(gè)數(shù)字”開頭),如果不是,說明不是卡耐基梅隆大學(xué)課程的索引項(xiàng),刪除該項(xiàng)。1.調(diào)用setInf
6、or()函數(shù),設(shè)置了每一門課程的公共信息,本例為學(xué)校和學(xué)院2.初始化HTMLParser的分析器parser,并設(shè)置編碼方式3.分析LParser進(jìn)行基于ellonCollegeofSciences(MCS,樣本600,未提供教師信息),第三行數(shù)據(jù)為CollegeofFineArts(CFA,樣本120)。表1查全率,查準(zhǔn)率,F(xiàn)-度量的比較Tab.1parisonofRecall,Precision,F-measure4.系統(tǒng)實(shí)現(xiàn)本文的Model-Vie4j通過對(duì)xml文件的讀寫實(shí)現(xiàn)實(shí)現(xiàn)“Latest
7、KeyQuery詞條搜索,QueryParser字串搜索,BooleanQuery布爾搜索等等。分詞基于Lucene的中文分詞軟件—JE分詞。本搜索引擎同時(shí)支持中文和英文搜索。圖5各個(gè)學(xué)院的F度量Fig5F-measureofdifferentcolleges5.總結(jié)和展望本文提出了利用Google按照“學(xué)校-學(xué)院-教師-課程”發(fā)現(xiàn)搜索路徑,然后利用HTMLParser編寫包裝器進(jìn)行基于M、CRF等統(tǒng)計(jì)模型的元數(shù)據(jù)算法。并且將利用.ChauandH.Chen.PersonalizedandFocuse
8、d.NajorkandJ.L.olina,andL.Page,“EfficientCrame/fullpapers/1919/1919.htm.H.ChenandT.Ng,“AnAlgorithmicApproachtoConceptExplorationinaLargeKnoaticThesaurusConsultation):SymbolicBrand-and-BoundSearchvs.ConnectionistHopfieldNetActivat