基于 google 搜索路徑的課程信息垂直搜索引

基于 google 搜索路徑的課程信息垂直搜索引

ID:26163279

大?。?6.50 KB

頁數(shù):5頁

時(shí)間:2018-11-25

基于 google 搜索路徑的課程信息垂直搜索引_第1頁
基于 google 搜索路徑的課程信息垂直搜索引_第2頁
基于 google 搜索路徑的課程信息垂直搜索引_第3頁
基于 google 搜索路徑的課程信息垂直搜索引_第4頁
基于 google 搜索路徑的課程信息垂直搜索引_第5頁
資源描述:

《基于 google 搜索路徑的課程信息垂直搜索引》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于Google搜索路徑的課程信息垂直搜索引【摘要】課程信息垂直搜索引擎,即在課程信息這個(gè)特定的領(lǐng)域里,讓用戶能搜索到最精準(zhǔn)最全面的結(jié)果。本文利用Google發(fā)現(xiàn)“學(xué)校-學(xué)院-教師-課程”路徑,利用HTMLParser進(jìn)行基于UC[5]、CoNLL[6]、ACE[7]、SIGHAN[8]等。就本文而言,實(shí)體“課程”包括以下屬性:課程名稱、學(xué)院、學(xué)校、教師、教師主頁URL,課程鏈接以及課程簡介。本文的NE識(shí)別方法為基于LParser編寫包裝器進(jìn)行基于WEB頁面結(jié)構(gòu)分析的課程元數(shù)據(jù)信息抽取。第2節(jié)介紹了本

2、文的總體思路與核心算法,重點(diǎn)介紹了抓取網(wǎng)頁的基類,并以卡耐基-梅隆大學(xué)的生態(tài)環(huán)境研究學(xué)院為例,具體敘述了專門為該學(xué)院編寫的包裝器。第3節(jié)評(píng)測了算法的查全率,查準(zhǔn)率和F-度量,分析了本文算法的性能。第4節(jié)簡單介紹了本文涉及的實(shí)現(xiàn)技術(shù)。最后,對(duì)本文的性能和擴(kuò)展做了小結(jié),指出了針對(duì)本文改進(jìn)和發(fā)展的方向。2.1利用Google發(fā)現(xiàn)搜索路徑課程的自然組織形式為從大學(xué)、學(xué)院、教師再到課程或者從大學(xué)、學(xué)院直接到課程。因此,本文利用GoogleAJAXSearchAPI以及Google的高級(jí)搜索語法按以下兩種順序之一

3、來發(fā)現(xiàn)課程信息:(1)學(xué)?!鷮W(xué)院→教師→課程(2)學(xué)?!鷮W(xué)院→課程2.1.1GoogleAPI和高級(jí)搜索語法如圖1所示,為本文設(shè)計(jì)的基于Google的路徑發(fā)現(xiàn)頁面有兩個(gè)輸入框,keyeKeyeKeyeType”,表示過濾文件類型為“someType”的結(jié)果?!癷ntitle:someKeyeKeyu”,site留空。第一個(gè)得到的結(jié)果即為.cmu.edu/(2)學(xué)院在keyentalcmu”,site留空。第一個(gè)結(jié)果即為.ce.cmu.edu/(3)課程信息頁面:在keyu.edu”。得到2007-co

4、urse-list和2008-course-list的URL地址。(4)教師信息頁面:在keyu.edu”。得到falculty的URL地址。2.2LParser,使用的版本為1.6。HTMLParser是一個(gè)簡單而功能強(qiáng)大的JavaHTML解析器庫,可以分析和處理LParser的分析器parser,設(shè)置編碼方式2.根據(jù)WEB頁面結(jié)構(gòu)選擇適合的Filter,比如本頁面要提取課程簡介,則該節(jié)點(diǎn)必定含有關(guān)鍵詞Description,因此選用StringFiltercoursefilter=neental.

5、java繼承(extends)于Extractor.java主要包括兩個(gè)函數(shù):(1)getTeachers(),通過分析WEB頁面結(jié)構(gòu)獲得教師信息,并存儲(chǔ)于teacherList,偽代碼見圖3:1.初始化teacherList,數(shù)據(jù),類型為ArrayList2.根據(jù)U根據(jù)卡耐基梅隆大學(xué)課程編號(hào)的統(tǒng)一形式,用正則匹配[0-9]{2}-[0-9]{3},(即判斷索引中的name域的值是否以“兩個(gè)數(shù)字”+“-”+“三個(gè)數(shù)字”開頭),如果不是,說明不是卡耐基梅隆大學(xué)課程的索引項(xiàng),刪除該項(xiàng)。1.調(diào)用setInf

6、or()函數(shù),設(shè)置了每一門課程的公共信息,本例為學(xué)校和學(xué)院2.初始化HTMLParser的分析器parser,并設(shè)置編碼方式3.分析LParser進(jìn)行基于ellonCollegeofSciences(MCS,樣本600,未提供教師信息),第三行數(shù)據(jù)為CollegeofFineArts(CFA,樣本120)。表1查全率,查準(zhǔn)率,F(xiàn)-度量的比較Tab.1parisonofRecall,Precision,F-measure4.系統(tǒng)實(shí)現(xiàn)本文的Model-Vie4j通過對(duì)xml文件的讀寫實(shí)現(xiàn)實(shí)現(xiàn)“Latest

7、KeyQuery詞條搜索,QueryParser字串搜索,BooleanQuery布爾搜索等等。分詞基于Lucene的中文分詞軟件—JE分詞。本搜索引擎同時(shí)支持中文和英文搜索。圖5各個(gè)學(xué)院的F度量Fig5F-measureofdifferentcolleges5.總結(jié)和展望本文提出了利用Google按照“學(xué)校-學(xué)院-教師-課程”發(fā)現(xiàn)搜索路徑,然后利用HTMLParser編寫包裝器進(jìn)行基于M、CRF等統(tǒng)計(jì)模型的元數(shù)據(jù)算法。并且將利用.ChauandH.Chen.PersonalizedandFocuse

8、d.NajorkandJ.L.olina,andL.Page,“EfficientCrame/fullpapers/1919/1919.htm.H.ChenandT.Ng,“AnAlgorithmicApproachtoConceptExplorationinaLargeKnoaticThesaurusConsultation):SymbolicBrand-and-BoundSearchvs.ConnectionistHopfieldNetActivat

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。