科技論文語義元數(shù)據(jù)的自動抽取研究

ID：38264994

大?。?63.23 KB

頁數(shù)：5頁

時間：2019-05-26

資源描述：

《科技論文語義元數(shù)據(jù)的自動抽取研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、《現(xiàn)代圖書情報技術(shù)》版權(quán)所有，歡迎下載引用！請注明引用地址：ＰＤＦ科技論文語義元數(shù)據(jù)的自動抽取研究［Ｊ］，現(xiàn)代圖書情報技術(shù)，２００９（２）：１０２－１０６．應(yīng)用實踐ＰＤＦ科技論文語義元數(shù)據(jù)的自動抽取研究張秀秀馬建霞（中國科學(xué)院國家科學(xué)圖書館蘭州分館蘭州７３００００）【摘要】在分析ＰＤＦ文件結(jié)構(gòu)的基礎(chǔ)上，解析ＰＤＦ文件的內(nèi)容流，并采用基于規(guī)則的匹配方法和基于格式的定位方法，自動抽取科技論文中的語義元數(shù)據(jù)信息。實驗結(jié)果表明，上述方法對標(biāo)題、作者等重要的語義元數(shù)據(jù)信息能夠達到較好的抽取效果?！娟P(guān)鍵詞】ＰＤＦ科技論文語義元數(shù)據(jù)自動抽取【分類號】ＴＰ３

2、９１．４３ＡｕｔｏｍａｔｉｃＥｘｔｒａｃｔｉｏｎｏｆＳｅｍａｎｔｉｃＭｅｔａｄａｔａｆｒｏｍＰＤＦＲｅｓｅａｒｃｈＰａｐｅｒｓＺｈａｎｇＸｉｕｘｉｕＭａＪｉａｎｘｉａ（ＴｈｅＬａｎｚｈｏｕＢｒａｎｃｈｏｆＮａｔｉｏｎａｌＳｃｉｅｎｃｅＬｉｂｒａｒｙ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｌａｎｚｈｏｕ７３００００，Ｃｈｉｎａ）【Ａｂｓｔｒａｃｔ】ＴｈｉｓｐａｐｅｒａｎａｌｙｚｅｓｃｏｎｔｅｎｔｓｔｒｅａｍｓｏｆＰＤＦｆｉｌｅｓｂａｓｅｄｏｎｉｔｓｓｔｒｕｃｔｕｒｅ，ａｎｄｅｘｔｒａｃｔｓｓｅｍａｎｔｉｃｍｅｔａｄａｔａａｕｔｏｍａｔ

3、ｉｃａｌｌｙｆｒｏｍｒｅｓｅａｒｃｈｐａｐｅｒｓｂｙｗａｙｏｆｒｕｌｅ－ｂａｓｅｄｍａｔｃｈｉｎｇａｎｄｆｏｒｍａｔ－ｂａｓｅｄｌｏｃａｔｉｎｇ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓｍｅｔｈｏｄｃａｎｅｘｔｒａｃｔｉｍｐｏｒｔａｎｔｓｅｍａｎｔｉｃｍｅｔａｄａｔａｓｕｃｈａｓｔｉｔｌｅａｎｄａｕｔｈｏｒｅｆｆｅｃｔｉｖｅｌｙ．【Ｋｅｙｗｏｒｄｓ】ＰＤＦＲｅｓｅａｒｃｈｐａｐｅｒＳｅｍａｎｔｉｃｍｅｔａｄａｔａＡｕｔｏｍａｔｉｃｅｘｔｒａｃｔｉｏｎ１引言元數(shù)據(jù)提供了網(wǎng)絡(luò)資源描述、表達、管理和使用的基本方案，是網(wǎng)絡(luò)資源組織和

4、檢索的核心所在。隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展，面對海量文獻描述的需要，如何快速、高效地產(chǎn)生元數(shù)據(jù)成為數(shù)字圖書館建設(shè)過程中面臨的一大難題。當(dāng)前數(shù)字圖書館建設(shè)過程中，元數(shù)據(jù)大多由人工逐條標(biāo)記輸入，這不僅花費了大量的人力、物力和時間，而且也越來越不能滿足海量文獻管理的需要。若元數(shù)據(jù)信息可以自動生成、自動抽取，必將大大減輕信息人員的工作負擔(dān)，極大地提高工作效率。網(wǎng)上發(fā)布的科技論文大多以ＰＤＦ形式存在，因此，本文的研究將針對ＰＤＦ格式的論文展開。文章首先介紹了ＰＤＦ文件的物理結(jié)構(gòu)和邏輯結(jié)構(gòu)，然后在對ＰＤＦ文件直接進行文本、格式解析的基礎(chǔ)上，依據(jù)科技論

5、文中文本內(nèi)容的組織方式和排版格式等信息，采用基于規(guī)則的匹配方法和基于格式的定位方法，實現(xiàn)相關(guān)元數(shù)據(jù)的自動抽取，其中最主要的工作是抽取出論文的標(biāo)題、作者、摘要、關(guān)鍵詞４種重要的語義元數(shù)據(jù)。２元數(shù)據(jù)自動抽取的相關(guān)研究元數(shù)據(jù)抽取是信息抽取的一個分支，隨著元數(shù)據(jù)自動抽取的內(nèi)在需求不斷增長，國內(nèi)外學(xué)者對元數(shù)據(jù)自動抽取技術(shù)展開了一系列的理論研究。元數(shù)據(jù)自動抽取的方法大體可以分為兩類：基于規(guī)則的方法和機器學(xué)習(xí)的方法?；谝?guī)則的方法采用基于收稿日期：２００８－１１－０３收修改稿日期：２００８－１１－２１本文系中國科學(xué)院國家科學(xué)圖書館青年人才領(lǐng)域前沿項目“元數(shù)據(jù)

6、自動抽取工具在數(shù)字知識庫建設(shè)中的應(yīng)用研究與開發(fā)”和國家社會科學(xué)基金項目“機構(gòu)知識庫建設(shè)與應(yīng)用研究”（項目編號：０７ＢＴＱ０１９）的研究成果之一。１０２現(xiàn)代圖書情報技術(shù)總第１７５期２００９年第２期模式識別和模式匹配的模板挖掘技術(shù)達到抽取自由文行。文件體（Ｂｏｄｙ）是ＰＤＦ文件的主體部分，由許多序本的目的，如：文獻［１］利用正則表達式規(guī)則從ＰＤＦ文列化的間接對象組成，這些間接對象共同構(gòu)成了ＰＤＦ檔中抽取首頁元數(shù)據(jù)；文獻［２］采用基于層級知識描文件的具體內(nèi)容，如頁面、字體、圖像等。交叉引用表述框架的ＩｎｆｏＭａｐ方法抽取引文元數(shù)據(jù)等?；谝?guī)則（Ｃｒｏｓ

7、ｓ－ｒｅｆｅｒｅｎｃｅＴａｂｌｅ）是一個關(guān)于間接對象的地址的方法易于理解和操作，并且如果規(guī)則制定得當(dāng)，抽取索引表，通過它能夠?qū)崿F(xiàn)對間接對象的快速隨機存取。效果將十分理想。但是基于規(guī)則的方法需要專業(yè)人員文件尾（Ｔｒａｉｌｅｒ）聲明了交叉引用表的地址，指明了文預(yù)先設(shè)計一系列規(guī)則，而且如果抽取的目標(biāo)發(fā)生變化件體的根對象，還保存了加密等安全信息。則會有規(guī)則不適應(yīng)的情況出現(xiàn)。機器學(xué)習(xí)的方法采用ＰＤＦ的文檔結(jié)構(gòu)反映了文件體中間接對象之間的另外一種思路，它通過訓(xùn)練樣本并建立樣本的輸入與等級層次關(guān)系，是一種樹型結(jié)構(gòu)，如圖１所示。樹的根輸出之間的關(guān)系來預(yù)測新數(shù)據(jù)，

8、如文獻［３］采用最大節(jié)點就是整個ＰＤＦ文件的根對象（Ｃａｔａｌｏｇ），根對象包熵等模型從常見文檔中抽取標(biāo)題元數(shù)據(jù)；文獻［４］采含多種屬性

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

科技論文語義元數(shù)據(jù)的自動抽取研究

科技論文語義元數(shù)據(jù)的自動抽取研究

相關(guān)文章

相關(guān)標(biāo)簽