資源描述:
《第3章 信息檢索基礎》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、第3章信息檢索基礎3.1信息檢索概念3.2信息檢索原理3.3信息檢索語言3.4信息檢索系統(tǒng)與檢索工具3.1信息檢索概念3.1.1信息檢索定義“檢索”一詞源自英文“Retrieval”,其含義是“查找”。特大量相關信息按一定的方式和規(guī)律組織和存儲起來,形成某種信息集合,并能根據用戶特定需求快速高效地查找出所需信息的過程稱為信息檢索。從廣義上講,信息檢索包括存儲過程和檢索過程;對信息用戶來說,往往僅指查找所需信息的檢索過程。信息檢索實質上就是把表達用戶信息需求的提問特征,同檢索系統(tǒng)中的信息特征標識進行類比,從中找出相一致的信息。下一頁返回3.1信息檢索概念信息的存儲主要包括對在一定專業(yè)范
2、圍內的信息選擇基礎上進行信息特征描述、加工并使其有序化,即建立數據庫。檢索是借助一定的設備與工具,采用一系列方法與策略從數據庫中查找出所需信息。存儲是檢索的基礎,檢索是存儲的逆過程。在現代信息技術環(huán)境下,信息檢索從本質上講,是指人們希望從一切信息系統(tǒng)中迅速、準確地查找到自己感興趣的有用信息,而不論它的出現形式或媒體介質。傳統(tǒng)的信息檢索,主要是根據文獻的內、外部特征,用手工方式實現?,F代以計算機為核心的信息檢索技術,開辟了信息處理與信息檢索的新時代。從計算機處理數字信息發(fā)展到處理字符信息,又到能夠處理靜、動態(tài)圖像(形)信息乃至聲音信息等。這一過程不斷拓展著信息檢索的領域,豐富著信息檢索
3、的內容,提高了信息檢索的速度。上一頁下一頁返回3.1信息檢索概念3.1.2現代信息檢索技術1.全文檢索最早的全文檢索系統(tǒng)是1959年美國匹茲堡大學衛(wèi)生法律中心研制的。全文檢索系統(tǒng)的出現為人們獲取文獻原文而非文獻線索信息提供了一條有效途徑。全文檢索是以文獻所含的全部信息作為檢索內容的,即檢索系統(tǒng)存儲的是整篇文章或整部圖書的全部內容。檢索時可以查找到原文以及有關的句、段、節(jié)、章等文字,并可進行各種頻率統(tǒng)計和內容分析。全文檢索主要是用自然語言表達檢索課題,較適用于某些參考價值大的經典性文獻,如各種典籍、名著等。全文檢索是當前計算機信息檢索的發(fā)展方向之一。上一頁下一頁返回3.1信息檢索概念2
4、.多媒體檢索多媒體檢索技術是把文字、聲音、圖像(形)等多種信息的傳播載體通過計算機進行數字化加工處理而形成的一種綜合技術。多媒體技術的應用使信息檢索系統(tǒng)進一步滿足了社會對多元化信息的需求。(1)視頻檢索。其用途比較廣泛,如關于衛(wèi)星云圖變化、人體內器官運作等。這種檢索就是要在大量的視頻數據中查找所需要的視頻片斷。用戶需求往往具有層次化特征,比如要檢索關于某一個鏡頭中的某個主題的視頻段或某些圖像幀等。上一頁下一頁返回3.1信息檢索概念(2)聲音檢索。它包括:用序號查找一段聲音;以匹配方式檢索給定樣值的聲音,對聲音文本的檢索等。(3)圖像檢索?;趦热莸膱D像檢索技術是一種綜合集成技術。它通
5、過分析圖像的內容,如顏色、紋理等建立特征索引,并存儲在特征庫中。用戶查詢時,只要把自己對圖像的模糊印象描述出來即可在大容量圖像信息庫中找到所要的圖像。用戶一般對顏色、紋理、形狀以及目標的空間關系特征比較敏感,因此常用基于內容的檢索方法。具體包括:基于顏色特征的檢索,基于紋理特征的檢索,基于形狀特征的檢索。上一頁下一頁返回3.1信息檢索概念3.超媒體及超文本檢索傳統(tǒng)文本都是線性的,用戶必須順序閱讀。超媒體與此不同,它是一種非線性的網狀結構。超媒體系統(tǒng)主要提供基于瀏覽的檢索方式和基于提問的檢索方式。(1)基于瀏覽的檢索方式。超媒體系統(tǒng)的數據庫是一個多維空間結構的文獻鏈路網。鏈路網將同一篇
6、文獻或不同文獻(或文獻代表)的相關部分結構化地連接起來,這是傳統(tǒng)的檢索系統(tǒng)所無法實現的。這種組織結構決定了它主要通過非線性瀏覽獲取信息,即通過跟蹤信息節(jié)點間的鏈路在網絡中移動的過程,并非直接檢索。通過瀏覽不但可以了解數據庫的組織,從中查詢與課題相關的信息,而且可以不斷得到新節(jié)點的啟發(fā),重新調整檢索的目標使獲取的信息更切題,或者通過瀏覽信息片段動態(tài)地建立新的查詢路徑。上一頁下一頁返回3.1信息檢索概念(2)基于提問的檢索方式?;跒g覽的查詢是從“哪里”到“什么”,而采用提問的方式則是從“什么”到“哪里”,與瀏覽方式相比,提問方式查找目標明確,準確度高,較適于大型系統(tǒng)。但該方式對用戶要求
7、高,用戶必須熟悉專門化檢索語言和檢索策略。3.1.3信息檢索類型信息檢索可以按照不同的標準劃分成各種類型。上一頁下一頁返回3.1信息檢索概念1.按檢索內容區(qū)分按檢索內容區(qū)分,信息檢索可以分為文獻信息檢索、數據信息檢索和事實信息檢索。1)文獻信息檢索文獻信息檢索(DocumentInformationRetrieval)是以文獻(包括題錄、文摘和全文)為檢索對象的信息檢索。即利用相應的方式與手段,在存儲文獻的檢索工具或文獻數據庫中,查詢用戶在特定的時間和條件