資源描述:
《科技論文語義元數(shù)據(jù)的自動抽取研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、《現(xiàn)代圖書情報技術(shù)》版權(quán)所有,歡迎下載引用!請注明引用地址:PDF科技論文語義元數(shù)據(jù)的自動抽取研究[J],現(xiàn)代圖書情報技術(shù),2009(2):102-106.應(yīng)用實踐PDF科技論文語義元數(shù)據(jù)的自動抽取研究張秀秀馬建霞(中國科學(xué)院國家科學(xué)圖書館蘭州分館蘭州730000)【摘要】在分析PDF文件結(jié)構(gòu)的基礎(chǔ)上,解析PDF文件的內(nèi)容流,并采用基于規(guī)則的匹配方法和基于格式的定位方法,自動抽取科技論文中的語義元數(shù)據(jù)信息。實驗結(jié)果表明,上述方法對標(biāo)題、作者等重要的語義元數(shù)據(jù)信息能夠達到較好的抽取效果?!娟P(guān)鍵詞】PDF科技論文語義元數(shù)據(jù)自動抽取【分類號】TP3
2、91.43AutomaticExtractionofSemanticMetadatafromPDFResearchPapersZhangXiuxiuMaJianxia(TheLanzhouBranchofNationalScienceLibrary,ChineseAcademyofSciences,Lanzhou730000,China)【Abstract】ThispaperanalyzescontentstreamsofPDFfilesbasedonitsstructure,andextractssemanticmetadataautomat
3、icallyfromresearchpapersbywayofrule-basedmatchingandformat-basedlocating.Experimentalresultsshowthatthismethodcanextractimportantsemanticmetadatasuchastitleandauthoreffectively.【Keywords】PDFResearchpaperSemanticmetadataAutomaticextraction1引言元數(shù)據(jù)提供了網(wǎng)絡(luò)資源描述、表達、管理和使用的基本方案,是網(wǎng)絡(luò)資源組織和
4、檢索的核心所在。隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,面對海量文獻描述的需要,如何快速、高效地產(chǎn)生元數(shù)據(jù)成為數(shù)字圖書館建設(shè)過程中面臨的一大難題。當(dāng)前數(shù)字圖書館建設(shè)過程中,元數(shù)據(jù)大多由人工逐條標(biāo)記輸入,這不僅花費了大量的人力、物力和時間,而且也越來越不能滿足海量文獻管理的需要。若元數(shù)據(jù)信息可以自動生成、自動抽取,必將大大減輕信息人員的工作負擔(dān),極大地提高工作效率。網(wǎng)上發(fā)布的科技論文大多以PDF形式存在,因此,本文的研究將針對PDF格式的論文展開。文章首先介紹了PDF文件的物理結(jié)構(gòu)和邏輯結(jié)構(gòu),然后在對PDF文件直接進行文本、格式解析的基礎(chǔ)上,依據(jù)科技論
5、文中文本內(nèi)容的組織方式和排版格式等信息,采用基于規(guī)則的匹配方法和基于格式的定位方法,實現(xiàn)相關(guān)元數(shù)據(jù)的自動抽取,其中最主要的工作是抽取出論文的標(biāo)題、作者、摘要、關(guān)鍵詞4種重要的語義元數(shù)據(jù)。2元數(shù)據(jù)自動抽取的相關(guān)研究元數(shù)據(jù)抽取是信息抽取的一個分支,隨著元數(shù)據(jù)自動抽取的內(nèi)在需求不斷增長,國內(nèi)外學(xué)者對元數(shù)據(jù)自動抽取技術(shù)展開了一系列的理論研究。元數(shù)據(jù)自動抽取的方法大體可以分為兩類:基于規(guī)則的方法和機器學(xué)習(xí)的方法?;谝?guī)則的方法采用基于收稿日期:2008-11-03收修改稿日期:2008-11-21本文系中國科學(xué)院國家科學(xué)圖書館青年人才領(lǐng)域前沿項目“元數(shù)據(jù)
6、自動抽取工具在數(shù)字知識庫建設(shè)中的應(yīng)用研究與開發(fā)”和國家社會科學(xué)基金項目“機構(gòu)知識庫建設(shè)與應(yīng)用研究”(項目編號:07BTQ019)的研究成果之一。102現(xiàn)代圖書情報技術(shù)總第175期2009年第2期模式識別和模式匹配的模板挖掘技術(shù)達到抽取自由文行。文件體(Body)是PDF文件的主體部分,由許多序本的目的,如:文獻[1]利用正則表達式規(guī)則從PDF文列化的間接對象組成,這些間接對象共同構(gòu)成了PDF檔中抽取首頁元數(shù)據(jù);文獻[2]采用基于層級知識描文件的具體內(nèi)容,如頁面、字體、圖像等。交叉引用表述框架的InfoMap方法抽取引文元數(shù)據(jù)等?;谝?guī)則(Cros
7、s-referenceTable)是一個關(guān)于間接對象的地址的方法易于理解和操作,并且如果規(guī)則制定得當(dāng),抽取索引表,通過它能夠?qū)崿F(xiàn)對間接對象的快速隨機存取。效果將十分理想。但是基于規(guī)則的方法需要專業(yè)人員文件尾(Trailer)聲明了交叉引用表的地址,指明了文預(yù)先設(shè)計一系列規(guī)則,而且如果抽取的目標(biāo)發(fā)生變化件體的根對象,還保存了加密等安全信息。則會有規(guī)則不適應(yīng)的情況出現(xiàn)。機器學(xué)習(xí)的方法采用PDF的文檔結(jié)構(gòu)反映了文件體中間接對象之間的另外一種思路,它通過訓(xùn)練樣本并建立樣本的輸入與等級層次關(guān)系,是一種樹型結(jié)構(gòu),如圖1所示。樹的根輸出之間的關(guān)系來預(yù)測新數(shù)據(jù),
8、如文獻[3]采用最大節(jié)點就是整個PDF文件的根對象(Catalog),根對象包熵等模型從常見文檔中抽取標(biāo)題元數(shù)據(jù);文獻[4]采含多種屬性