資源描述:
《基于自然語(yǔ)言處理的多源POI數(shù)據(jù)融合的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、基于自然語(yǔ)言處理的多源POI數(shù)據(jù)融合的研究學(xué)位論文答辯日期:一.枷l;、}:碼指剝幣繇一塑答辯委員會(huì)成員簽字:謹(jǐn)以此文獻(xiàn)給尊敬的張巍副教授以及我親愛的朋友和同學(xué)們l????~李瑞姍獨(dú)創(chuàng)聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特另tlDl:i以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果,也刁i包含未獲得l洼;塑造直墓絲盂蔓掛別直明的:奎攔墮窒2或其他教育機(jī)構(gòu)的學(xué)位或證書使用過(guò)的材料。與我一同工作的同志對(duì)本矽I:究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示謝意。學(xué)位論文作者繇奄瑞降字隰wl;年≥月哆目學(xué)位論文版
2、權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)學(xué)??梢詫W(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。同時(shí)授權(quán)中國(guó)科學(xué)技術(shù)信息研究所將本學(xué)位論文收錄到《中國(guó)學(xué)位論文全文數(shù)據(jù)庫(kù)》,并通過(guò)例絡(luò)向社會(huì)公眾提供信息服務(wù)。(保密的學(xué)位論文在解密后適用本授權(quán)書)學(xué)位論文作者繇耆瑞明翩籜可簽字口期:厶吖;年歲月哆日簽字日期:沙1'年擴(kuò)月哆口知識(shí)產(chǎn)權(quán)保護(hù)協(xié)議依據(jù)《中華人民共和國(guó)促進(jìn)科技成果轉(zhuǎn)化法》第二十八條和《中國(guó)海洋大辜蕊凳墓黑囂竺躞!蘭赫然
3、燃嚳事宜達(dá)成如下協(xié)議:l、研究生在校期間從事科研工作所完成的學(xué)位論文以及不論是否寫入學(xué)位論文的其他成果屬職務(wù)成果。研究生不得對(duì)上述職務(wù)成果以自己或他人名義擅自向第三方轉(zhuǎn)讓或泄漏。2、研究生離校后三年內(nèi),不得擅自將在校期間從事科研工作的相關(guān)數(shù)據(jù)、研究結(jié)果和相關(guān)技術(shù)發(fā)表論文,不得擅自向第三方轉(zhuǎn)讓或泄漏。3、研究生離校后三年內(nèi),若進(jìn)行重復(fù)及延續(xù)在校研究課題的科技項(xiàng)目,必須經(jīng)導(dǎo)師及中國(guó)海洋大學(xué)同意并協(xié)商知識(shí)產(chǎn)權(quán)分享事宜后,方可開展工作。4、若研究生違反上述規(guī)定,導(dǎo)師及中國(guó)海洋大學(xué)有權(quán)追究其法律責(zé)任,即:要求其停止侵權(quán)行為、公開消除影響并予以經(jīng)濟(jì)賠償。5、本協(xié)議雙方簽字之日起生效,有效期三年?!p
4、,靜蛹71弓年}月/。日矽房基于自然語(yǔ)言處理的多源POI數(shù)據(jù)融合的研究1摘要近年來(lái),由于基于位置的服務(wù)快速發(fā)展,尤其是對(duì)網(wǎng)絡(luò)電予地圖、移動(dòng)位置服務(wù)(LBS)、便攜式自動(dòng)導(dǎo)航(PND)的使用,原有的興趣點(diǎn)(P01)很難繼續(xù)支撐這類服務(wù)。能否獲取高質(zhì)量的POI信息,成為此類服務(wù)的命脈所在。隨著人們持幣消費(fèi)能力在迅猛增K,在日常消費(fèi)、出行時(shí),會(huì)將更多的注意力放在餐飲、娛樂(lè)、旅游等領(lǐng)域。這種不斷增長(zhǎng)的消費(fèi)能力催生出了許多面向這一領(lǐng)域的信息提供商,他們所提供的信息內(nèi)容豐富,并且實(shí)時(shí)性相對(duì)很高。結(jié)合
5、.^述背景,如何獲取蘊(yùn)含在web中的大量有價(jià)值的POI信息點(diǎn)成為如今的一個(gè)熱點(diǎn)問(wèn)題,對(duì)這些已有的PO
6、I信息進(jìn)行校正、融合,得到有利用價(jià)值的規(guī)整數(shù)據(jù),這些工作具有重大的理論意義和實(shí)際的現(xiàn)實(shí)意義。本文在多源POI數(shù)據(jù)融合方面,包括POI各特征字段的表示、-口J’融合POI的分類、經(jīng)緯度字段的統(tǒng)一、嘲絡(luò)訪問(wèn)受限等方而,進(jìn)行了深入而系統(tǒng)的研究,具體的研究工作和研究成果如下:(1)通過(guò)分析POI中各特征字段的形式、特點(diǎn),提出了POI特征相似度用以表示待分類POI與原有POI集的關(guān)系,以此進(jìn)行之后的判斷依據(jù)。相似度的形式化表示主要由名稱、地理信息相似度兩部分組成,其中的地理信息包括POI中的地址和經(jīng)緯度。名稱部分是通過(guò)幾種經(jīng)典字符串匹配方法計(jì)算得出的,地址部分根據(jù)地址的相似計(jì)算得出,經(jīng)緯度部分利用
7、POI之間的距離得出。(2)文中用到的POI中的經(jīng)緯度是來(lái)源于不同網(wǎng)絡(luò)電子地圖上的坐標(biāo),同一實(shí)體在不同地圖上的坐標(biāo)不一致,對(duì)之后的POI融合_[作造成了一定的影響。為解決這個(gè)經(jīng)緯度標(biāo)準(zhǔn)不統(tǒng)一的問(wèn)題,本文提到兩種解決方法,即基于糾偏表的方法和基于API的方法。(3)構(gòu)建了一個(gè)基于規(guī)則的分類模型,構(gòu)建過(guò)程中設(shè)置POI各字段內(nèi)部系數(shù)及閾值,經(jīng)過(guò)回歸計(jì)算,選取其區(qū)分POI是否可融合效果最好的一組系數(shù)和閾值構(gòu)建出了判定模型。這個(gè)計(jì)算過(guò)程復(fù)雜、耗時(shí),并且不夠靈活,不具備自動(dòng)學(xué)習(xí)的能力。因此本文又利用機(jī)器學(xué)習(xí)分類器自身主動(dòng)學(xué)習(xí)的能力,構(gòu)造了幾種不1SupportedbytheNationalNatur
8、alScienceFoundationofChinaunderGritNo.60602017(國(guó)家自然科學(xué)基金);NaturalScienceFoundationofShandongProvinceunderGrantNo.ZR2012FM016(III東省自然科學(xué)基金)II同的分類模型,比較之后選出了較優(yōu)分類器,而實(shí)現(xiàn)分類性能的有效提升。論文創(chuàng)新點(diǎn)如下:(1)考慮到岡為詞語(yǔ)的存在使得不同漢字具有不同的關(guān)聯(lián)性,本文假設(shè)中文字符串匹配