基于 google 搜索路徑的課程信息垂直搜索引

ID：26163279

大?。?6.50 KB

頁數(shù)：5頁

時(shí)間：2018-11-25

資源描述：

《基于 google 搜索路徑的課程信息垂直搜索引》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于Google搜索路徑的課程信息垂直搜索引【摘要】課程信息垂直搜索引擎，即在課程信息這個(gè)特定的領(lǐng)域里，讓用戶能搜索到最精準(zhǔn)最全面的結(jié)果。本文利用Google發(fā)現(xiàn)“學(xué)校-學(xué)院-教師-課程”路徑，利用HTMLParser進(jìn)行基于UC[5]、CoNLL[6]、ACE[7]、SIGHAN[8]等。就本文而言，實(shí)體“課程”包括以下屬性：課程名稱、學(xué)院、學(xué)校、教師、教師主頁URL，課程鏈接以及課程簡介。本文的NE識(shí)別方法為基于LParser編寫包裝器進(jìn)行基于WEB頁面結(jié)構(gòu)分析的課程元數(shù)據(jù)信息抽取。第2節(jié)介紹了本

2、文的總體思路與核心算法，重點(diǎn)介紹了抓取網(wǎng)頁的基類，并以卡耐基-梅隆大學(xué)的生態(tài)環(huán)境研究學(xué)院為例，具體敘述了專門為該學(xué)院編寫的包裝器。第3節(jié)評(píng)測了算法的查全率，查準(zhǔn)率和F-度量，分析了本文算法的性能。第4節(jié)簡單介紹了本文涉及的實(shí)現(xiàn)技術(shù)。最后，對(duì)本文的性能和擴(kuò)展做了小結(jié)，指出了針對(duì)本文改進(jìn)和發(fā)展的方向。2.1利用Google發(fā)現(xiàn)搜索路徑課程的自然組織形式為從大學(xué)、學(xué)院、教師再到課程或者從大學(xué)、學(xué)院直接到課程。因此，本文利用GoogleAJAXSearchAPI以及Google的高級(jí)搜索語法按以下兩種順序之一

3、來發(fā)現(xiàn)課程信息：(1)學(xué)?！鷮W(xué)院→教師→課程(2)學(xué)?！鷮W(xué)院→課程2.1.1GoogleAPI和高級(jí)搜索語法如圖1所示，為本文設(shè)計(jì)的基于Google的路徑發(fā)現(xiàn)頁面有兩個(gè)輸入框，keyeKeyeKeyeType”，表示過濾文件類型為“someType”的結(jié)果?！癷ntitle:someKeyeKeyu”，site留空。第一個(gè)得到的結(jié)果即為.cmu.edu/(2)學(xué)院在keyentalcmu”，site留空。第一個(gè)結(jié)果即為.ce.cmu.edu/(3)課程信息頁面：在keyu.edu”。得到2007-co

4、urse-list和2008-course-list的URL地址。(4)教師信息頁面：在keyu.edu”。得到falculty的URL地址。2.2LParser，使用的版本為1.6。HTMLParser是一個(gè)簡單而功能強(qiáng)大的JavaHTML解析器庫，可以分析和處理LParser的分析器parser，設(shè)置編碼方式2.根據(jù)WEB頁面結(jié)構(gòu)選擇適合的Filter，比如本頁面要提取課程簡介，則該節(jié)點(diǎn)必定含有關(guān)鍵詞Description，因此選用StringFiltercoursefilter=neental.

5、java繼承(extends)于Extractor.java主要包括兩個(gè)函數(shù)：(1)getTeachers()，通過分析WEB頁面結(jié)構(gòu)獲得教師信息，并存儲(chǔ)于teacherList,偽代碼見圖3：1.初始化teacherList，數(shù)據(jù),類型為ArrayList2.根據(jù)U根據(jù)卡耐基梅隆大學(xué)課程編號(hào)的統(tǒng)一形式，用正則匹配[0-9]{2}-[0-9]{3}，（即判斷索引中的name域的值是否以“兩個(gè)數(shù)字”+“-”+“三個(gè)數(shù)字”開頭），如果不是，說明不是卡耐基梅隆大學(xué)課程的索引項(xiàng)，刪除該項(xiàng)。1.調(diào)用setInf

6、or()函數(shù)，設(shè)置了每一門課程的公共信息，本例為學(xué)校和學(xué)院2.初始化HTMLParser的分析器parser，并設(shè)置編碼方式3.分析LParser進(jìn)行基于ellonCollegeofSciences（MCS，樣本600，未提供教師信息），第三行數(shù)據(jù)為CollegeofFineArts(CFA，樣本120)。表1查全率，查準(zhǔn)率，F(xiàn)-度量的比較Tab.1parisonofRecall,Precision,F-measure4．系統(tǒng)實(shí)現(xiàn)本文的Model-Vie4j通過對(duì)xml文件的讀寫實(shí)現(xiàn)實(shí)現(xiàn)“Latest

7、KeyQuery詞條搜索，QueryParser字串搜索，BooleanQuery布爾搜索等等。分詞基于Lucene的中文分詞軟件—JE分詞。本搜索引擎同時(shí)支持中文和英文搜索。圖5各個(gè)學(xué)院的F度量Fig5F-measureofdifferentcolleges5．總結(jié)和展望本文提出了利用Google按照“學(xué)校-學(xué)院-教師-課程”發(fā)現(xiàn)搜索路徑，然后利用HTMLParser編寫包裝器進(jìn)行基于M、CRF等統(tǒng)計(jì)模型的元數(shù)據(jù)算法。并且將利用.ChauandH.Chen.PersonalizedandFocuse

8、d.NajorkandJ.L.olina,andL.Page,“EfficientCrame/fullpapers/1919/1919.htm.H.ChenandT.Ng,“AnAlgorithmicApproachtoConceptExplorationinaLargeKnoaticThesaurusConsultation):SymbolicBrand-and-BoundSearchvs.ConnectionistHopfieldNetActivat

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于 google 搜索路徑的課程信息垂直搜索引

基于 google 搜索路徑的課程信息垂直搜索引

相關(guān)文章

相關(guān)標(biāo)簽