資源描述:
《基于交互式問答的日常對話系統(tǒng)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、-國內(nèi)圖書分類號:TP391.3學校代碼:10213國際圖書分類號:621.3密級:公開工學碩士學位論文基于交互式問答的日常對話系統(tǒng)碩士研究生:李曼導師:王曉龍教授申請學位:工學碩士學科:計算機科學與技術(shù)所在單位:深圳研究生院答辯日期:2011年12月授予學位單位:哈爾濱工業(yè)大學----ClassifiedIndex:TP391.3U.D.C:621.3ThesisfortheMasterDegreeofEngineeringDAILYDIALOGUESYSTEMBASEDONINTERACTIVEQ&APRINCIPLECandidate:ManLiSupe
2、rvisor:Prof.XiaolongWangAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:Dec,2011Degree-Conferring-Institution:HarbinInstituteofTechnology----哈爾濱工業(yè)大學工學碩士學位論文摘要近年來,搜索技術(shù)的發(fā)展推進了以搜索為基礎的在線問答系統(tǒng)的出現(xiàn),以及更高級的交互式問答系
3、統(tǒng)在各個領域的應用。交互式問答系統(tǒng)是指人與系統(tǒng)之間能夠用自然語言的形式,進行交互的、上下文相關(guān)的、在一個會話過程中連續(xù)的對話。目前的交互式問答系統(tǒng)多是針對某一具體領域的,系統(tǒng)的表現(xiàn)性能,很大程度上依賴于該領域知識庫的規(guī)模。系統(tǒng)的回復即是在該知識庫中搜索到的與用戶問句匹配的答案。領域不同,對應的知識庫不同。但是,以日常對話為內(nèi)容的問答,是基于任一領域的日常問答系統(tǒng)都涉及到的。而且,系統(tǒng)在日常對話方面回答的優(yōu)劣,在很大程度上,會影響到用戶對整個系統(tǒng)性能的評價。如何提高交互式問答系統(tǒng)在日常對話中的人性化和智能化,是本課題的主要研究內(nèi)容。本課題主要從以下幾個方面著手:
4、(1)按類別組織構(gòu)建日常對話問答庫將日常對話功能視為交互式問答系統(tǒng)的一個獨立模塊,建立該模塊的對話知識庫。按照日常對話所討論對象的范圍,將知識庫分為19個類別,選用AIML語言編寫。通過ALICE系統(tǒng)的接口,對用戶的問句,使用基于模式匹配的算法在知識庫中搜索匹配答案,給出回復。AIML語言支持兩種正則表達式模糊匹配,一定程度上,擴大了系統(tǒng)可應答范圍。(2)用戶對話按照對話場景進行層次分類,給出基于類別的回復處理對于在日常對話庫中無法準確匹配的問句,按其所屬的對話場景進行分類,針對類別給出對應的處理方法,或者基于類別的模糊回答。本課題中,收集、觀察并分析了用戶與
5、系統(tǒng)間的問答記錄,根據(jù)人機對話場景、系統(tǒng)的回答模式和用戶的提問方式,確定了日常對話分類的類別。經(jīng)過初步試驗,對日常對話分類類別進行了調(diào)整,最后通過兩層分類實現(xiàn)。分類所用語料為經(jīng)過多人標注的真實環(huán)境下的人機問答對話記錄。第一層分類用金融詞匯對問句進行過濾,得到日常類對話。第二層分類是對日常類對話進行細分類。通過分析日常類對話在各個類別的分布,將最初的19個類別調(diào)整為最終的14個類別標簽。對問句提取的特征,包括:詞、擴展詞、詞性、語義、問句模板、正負情感詞、句子結(jié)構(gòu)等,使用信息增益方法進行特征選擇,并分別用樸素貝葉斯、k最近鄰和支持向量機的分類方法進行分類測試。在
6、收集到的1002條問句的測試集上,最終的分類準確率達到了68.84%,召回率為-I----哈爾濱工業(yè)大學工學碩士學位論文63.50%,F(xiàn)1值為61.99%。在日常對話知識庫中匹配失敗的問句,針對其分類類別進行對應場景下的處理方式。(3)用戶問句復述識別識別同一用戶的重復提問,并給出人性化提示,而不是反復給出相同的檢索答案,是系統(tǒng)智能性得到提高的一個表現(xiàn)方面。問句復述的判定,還可以用來識別出庫中與用戶對話同義的對話,擴大可以應答的范圍。問句復述的識別,通過問句相似度計算的方法來實現(xiàn)。一種是基于詞頻的方法,一種是借助于HowNet、基于語義的方法。本課題,在收集的
7、相似日常對話測試集上,進行了多組對比實驗,將最終的問句復述判定閾值設為0.9211。關(guān)鍵詞:交互式問答;日常對話知識庫;AIML;對話分類;復述識別-II----哈爾濱工業(yè)大學工學碩士學位論文AbstractInrecentyears,thedevelopmentofsearchtechnologyhaspushedforwardtheappearanceoftheonlineQAsystembasedonthewebsitesearch,andtheapplicationofinteractiveQAsysteminmanyfields.Interactiv
8、eQAsystemisonekindo