query分析應(yīng)用講義

query分析應(yīng)用講義

ID:11420352

大小:2.49 MB

頁數(shù):20頁

時間:2018-07-11

query分析應(yīng)用講義_第1頁
query分析應(yīng)用講義_第2頁
query分析應(yīng)用講義_第3頁
query分析應(yīng)用講義_第4頁
query分析應(yīng)用講義_第5頁
資源描述:

《query分析應(yīng)用講義》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、Query相關(guān)應(yīng)用何仁清herenqing@baidu.comQuery分析是什么Query是用戶與資源的橋梁Query分析是利用用戶需求的手段Query分析方向Query變型變換Query需求分析多term合并權(quán)值計算Query分析都做什么檢索的基本過程在系統(tǒng)中的位置query生成查詢term檢索倒排索引倒排索引(大庫、VIP庫、wdn,小時庫等)term1term2Term所在網(wǎng)頁:包含term權(quán)值、位置信息(offset)多termmerge(rank過程)前端(BWSUIASM)查詢結(jié)果Query’Merge

2、結(jié)果BSDA(同義詞省略需求分析……)切詞、粘接、緊密度計算、query變換Term重要性、同義merge、offset限制同義詞替換,query省略、需求分析特殊結(jié)果插入和控制(主動糾錯、關(guān)聯(lián)query、需求提權(quán)、同義詞展現(xiàn)控制)ASM、UI共現(xiàn)數(shù)據(jù)二元、三元(正在統(tǒng)計)Bigram、句子級、篇章級全庫title、網(wǎng)頁、query作用Term與term在網(wǎng)頁分布數(shù)量Term的搭配關(guān)系應(yīng)用同義詞**省略**Offset、粘接*主線:共現(xiàn)數(shù)據(jù)在query分析的應(yīng)用case魔獸sf=“魔獸私服”“魔獸世界私服”丁香承認(rèn)社

3、區(qū)=“丁香成人社區(qū)”怎么忘歌手:周渝民=“怎么忘周渝民”目的不同表達方式歸一話(同義詞)糾正輸入錯誤(糾錯)簡潔的、無冗余的表達(省略)Query變型變換同義詞的重要性重要的語義資源主要應(yīng)用:query變換、內(nèi)容分析同義詞定義意義相同或相近,例如“大夫—醫(yī)生”一定語境下表示相同語義,“小結(jié)—總結(jié)”,“工作小結(jié)—工作總結(jié)BaiduVSGoogle都進行同義詞替換,整體情況差不多Google特點英文類同義詞覆蓋率“l(fā)astfriend”單字類同義詞飄紅“魔獸sf”Baidu特點注重?zé)衢T、中文同義詞概要學(xué)術(shù)界Hownet同

4、義詞詞林::例子(我咱俺余吾予儂咱家本人身個人人家斯人)遇到的問題大量未登錄詞(超女、超級女聲,SF、私服)面向query變換,考慮query上下文語境。同義詞基本類型中英文:nokia、諾基亞實體詞別稱:金銀花、忍冬花實體詞縮寫:北京大學(xué)、北大通用普通詞:變小、減小基本思想盡量避開語義層次研究,采用多種方法進行資源挖掘定向挖掘中英文準(zhǔn)確、覆蓋面少模板挖掘模板訓(xùn)練:同義詞種子挖掘模板模板匹配:Xxx又叫xxxx,全庫網(wǎng)頁挖掘覆蓋較好、準(zhǔn)確率低、與query同義詞不對應(yīng)相關(guān)性挖掘利用wordsim計算最相關(guān)詞語相關(guān)不一

5、定同義上下文挖掘Query相同上下文結(jié)合wordsim相關(guān)性若干抽取算法、規(guī)則同義詞資源挖掘難點轉(zhuǎn)義風(fēng)險:沒有完全同意的詞語義分析:缺少成熟、實用的語義分析方法可行的方法直接替換:簡單;同義詞質(zhì)量控制轉(zhuǎn)義上下文分析:分析替換query語義。如何識別語義是否發(fā)生變化呢?思路的轉(zhuǎn)換Query語義合理->最緊密上下文語義合理識別語義變化->識別資源豐富度后驗信息輔助:用戶行為同義詞應(yīng)用基本思想替換后語義合理性->最緊密term搭配合理性同義詞A、B的共性有共同的常見搭配CC與A、B的共現(xiàn)分布相同語義->統(tǒng)計的轉(zhuǎn)化,仍熱有風(fēng)

6、險規(guī)則:針對不同類別同義詞,制定特殊規(guī)則后驗調(diào)整:用戶反饋對資源、策略的調(diào)整基于共現(xiàn)的同義詞替換判斷基本方法選取上下文:結(jié)合緊密的term(1~2個)替換后共現(xiàn)符合閾值(不能明顯降低)同義詞本身相關(guān)性,指導(dǎo)閾值特殊規(guī)則(單字、后綴)后延調(diào)整退場機制資源、策略自動調(diào)整基于共現(xiàn)的同義詞替換判斷目的去除冗余信息,獲取更多資源case強奸之制服誘惑為什么我把歌曲下載到mp3上它卻說格式錯誤呢?漆包線用強力涂膜剝離劑天龍怎么坐騎做動作影響省略因素資源的數(shù)量與質(zhì)量:省略后有更多更優(yōu)質(zhì)結(jié)果語義分析:省略后保證基本語義未變Query

7、、網(wǎng)頁類型:問答類query、視頻query。省略概述為什么用戶輸入模式:自然表達,非關(guān)鍵字模式搜索引擎模式:關(guān)鍵字檢索,準(zhǔn)確、簡單的描述要求冗余信息影響結(jié)果召回:作用擴大召回:減少term數(shù),增加結(jié)果數(shù)提升檢索相關(guān)性:冗余類型結(jié)構(gòu)性冗余:聚丙二醇少量訂購語義冗余:windowsxp操作系統(tǒng)啟動省略概述結(jié)構(gòu)冗余省略詞的挖掘Patterm的識別語義冗余上下位詞挖掘:手機諾基亞P(A

8、B):A與B的條件概率問題如何知道應(yīng)該觸發(fā)省略省略詞直接省略風(fēng)險較大資源挖掘困難:上下位條件概率覆蓋率低省略的難點思路轉(zhuǎn)變觸發(fā)省略條件:檢

9、索結(jié)果較差冗余信息識別->中心詞+保留詞(其余均可省略中心詞表意能力強:term的獨立性Query中包含多個中心詞,構(gòu)成query的核心層次。中心詞+共現(xiàn)信息的省略與中心詞的常見搭配term,可以保留其他term可以省略優(yōu)缺點觸發(fā)條件:轉(zhuǎn)義風(fēng)險與省略收益的平衡中心詞+共現(xiàn):有一定理論支持,但對于資源過少query誤判較多,存在過激省略問題(語義

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。