資源描述:
《基于問答系統(tǒng)的人機對話平臺設計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、此京Tqk人字I掌壩l‘?:ft淪文(4)知名公司的研究成果2005年,IBM公司在其非結構化信息管理架構(UnstructuredInformationManagementArchitecture,UIMA)的軟件架構平臺上展開了基于語言分析、知識庫、問答系統(tǒng)、機器翻譯等功能的自然語言搜索研究,并計劃在此基礎上構建第三代信息檢索引擎,通過UIMA架構使應用程序可以提取多媒體數(shù)據(jù)中的文檔信息,并將這些文檔視為“人類語言的表達”而不是匹配文字模式,最終組織成更加結構化的信息,實現(xiàn)智能化信息檢索?'121。2005年,Microsott公司將Internet信息
2、檢索技術和基于微軟在線百科全書的知識庫整合到MSN即時通訊服務中,通過用戶與虛擬機器人Encarta的交互實現(xiàn)了IM方式的人機對話系統(tǒng)。2007年,DmitriRoussinov提出了一種新型問答式應用系統(tǒng),旨在信息檢索時返回問題對應的準確答案,而不是包含分類結果的若干相關網頁n31。1.3.2國內研究進展在國內也有許多大學和研究所在進行問答式人機對話系統(tǒng)的研究工作。不過中文對話系統(tǒng)的起步較晚,相對于國外的技術還不夠成熟,其主要原因是:中文對話系統(tǒng)除了要具有一般對話系統(tǒng)的功能外,還需要考慮到漢語的特性。在自然語言處理中,中文的語法語義等方面都與西方語言有著很
3、大的區(qū)別,其結構特點決定了它的句法分析和語義理解要更加復雜,詞與詞之間沒有空格分界符也使得系統(tǒng)在信息處理時要先對句子進行切分,因此中文對話系統(tǒng)往往無法直接利用國外一些成熟技術和研究成果。另外,中文對話系統(tǒng)的知識庫、評測標準、評測平臺等語言處理基礎資源缺乏,也在一定程度上影響著中文對話系統(tǒng)的發(fā)展n4~1引。下面是國內科研機構及公司在中文問答式人機對話系統(tǒng)上的一些典型應用:(1)NKI知識問答系統(tǒng)中科院計算所智能信息處理實驗室研發(fā)的大規(guī)模知識處理科研項目“國家知識基礎設施"(NationalKnowledgeInfrastructure,NKI)是一個龐大的、可
4、共享的知識信息平臺。它包含16個學科的580多個專業(yè)本體,各學科本體按照繼承和實現(xiàn)等關系形成了相對獨立的體系結構。該系統(tǒng)包含大約幾百萬條的專業(yè)知識信息,通過一個基于NKI知識庫的中文問答系統(tǒng)HKI,向用戶提供多領域的知識信息服務。HKI系統(tǒng)的主要特點是支持自由的提問方式,并向用戶提供準確的回答信息u。埔1。(2)小i機器人贏思公司開發(fā)的小i機器人是當前國內關注度較高的中文對話系統(tǒng),它同時提供了開放域和針對特定領域的多種人機交互環(huán)境,可以根據(jù)關鍵詞將用戶引導第1帝緒論皇曼皇曼曼曼鼉--=I=n:mm:m=m=lmm曼曼舅曼蔓曼!曼曼皇曼曼曼曼曼曼曼曼曼曼曼曼曼
5、曼曼曼曼曼曼曼曼曼曼曼到不同領域的信息服務系統(tǒng)中,與用戶進行頗具人性化的人機交互。小i機器人具有Web和IM兩種用戶接口,同時提供了可自定義領域信息的系統(tǒng)擴展接口,使用戶可以定制自己的問答機器人。1.4主要研究內容本論文從人機對話系統(tǒng)方便、快速、豐富且易于擴展的實際需求出發(fā),對基于問答系統(tǒng)的人機對話平臺的總體框架、設計思想、所需要涉及的技術等進行研究。在此基礎上,詳細討論了人機對話平臺的系統(tǒng)實現(xiàn),其中包括:平臺體系結構的設計思想;重要數(shù)據(jù)結構與數(shù)據(jù)文件的定義;自然語言處理方法的選擇;對話管理策略的設計;信息內容的獲取方式;規(guī)則庫、參數(shù)庫、語料庫和信息數(shù)據(jù)庫的
6、結構設計;人機對話平臺的系統(tǒng)測試等。1.5論文的組織結構本文分三個部分來闡述:第~部分:本文的第1章。介紹選題的背景及意義,描述了目前問答式人機對話系統(tǒng)的現(xiàn)狀,并說明了本文的主要研究內容。第二部分:此部分是論文的主題。本文的第2章描述了人機對話平臺所涉及的關鍵技術。第3章描述了人機對話平臺的系統(tǒng)需求、層次框架和結構模型,詳細介紹了人機對話平臺的總體設計。第4章描述了人機對話平臺各功能模塊的詳細設計與實現(xiàn)。第5章對人機對話平臺的系統(tǒng)功能與性能進行了測試分析,并對測試中出現(xiàn)的問題給出了解決辦法。第三部分:全文總結。第2章人"【對i^、
7、7f}的父鍵于上術人機對話
8、平臺的關鍵技術2.1中文分詞自然語言處理是計算機科學領域與人工智能領域中的一個重要方向,它主要研究人與計算機之間進行自然語言交互的基本理論和方法。中文分詞技術是自然語言處理系統(tǒng)的重要組成部分,它是計算機理解自然語言信息的基礎¨9’馴。中文分詞是將按照自然語言規(guī)范組合的句子劃分成詞序列的過程。在英文文本中,空格是單詞之間的自然分界符,無需對句子的詞邊界進行確認。而中文在句子構成上沒有一種明顯的詞邊界符,也就是說中文只是字、句和段可以通過明顯的分界標志來劃分邊界。所以對于中文來講,確定詞的劃分是理解自然語言的第一步Ⅲ~捌。現(xiàn)有的中文分詞可以分為基于字符串匹配的分
9、詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法三大類