資源描述:
《基于XML的Excel數(shù)據(jù)提取和集成研究.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、第24卷第4常熟理工學(xué)院學(xué)報(自然科學(xué))Vol.24No.42010年4月Apr.,2010JournalofChangshuInstituteTechnology(NaturalSciences)基于XML的Excel數(shù)據(jù)提取和集成研究12夏開建,嚴(yán)小泉(1.常熟理工學(xué)院計算機科學(xué)與工程學(xué)院,江蘇常熟215500;2.江蘇國光信息產(chǎn)業(yè)股份有限公司,江蘇常州213015)摘要:異構(gòu)數(shù)據(jù)源的集成問題是當(dāng)前數(shù)據(jù)處理領(lǐng)域內(nèi)研究的一個熱點,它能更有效地利用信息資源、更好地實現(xiàn)數(shù)據(jù)共享.針對當(dāng)前企業(yè)對異構(gòu)數(shù)據(jù)庫中Excel數(shù)據(jù)源集成的迫切需求,本文提出一個基于XML模板的E
2、xcel數(shù)據(jù)源數(shù)據(jù)映射方案,能使數(shù)據(jù)轉(zhuǎn)換更加靈活通用.該方案是實現(xiàn)異構(gòu)數(shù)據(jù)源之間數(shù)據(jù)交換的通用方法,實現(xiàn)了Excel數(shù)據(jù)向標(biāo)準(zhǔn)XML文件的相互轉(zhuǎn)化,有效提高了整個應(yīng)用系統(tǒng)的性能.關(guān)鍵詞:Excel數(shù)據(jù)源;XML模板;數(shù)據(jù)映射;異構(gòu)數(shù)據(jù)源中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:1008-2794(2010)04-0116-05隨著Internet技術(shù)的飛速發(fā)展和網(wǎng)絡(luò)計算模式的廣泛應(yīng)用,異構(gòu)數(shù)據(jù)源間的數(shù)據(jù)集成和轉(zhuǎn)換日益頻繁.異構(gòu)數(shù)據(jù)源在多個應(yīng)用系統(tǒng)中的格式、語義和層次不同,導(dǎo)致整個企業(yè)數(shù)據(jù)的不一致性.面對殘酷的競爭和頻繁的合并與收購行為,許多企業(yè)都在力圖解決數(shù)據(jù)
3、碎片所帶來的問題,整合這些支離破碎的異構(gòu)數(shù)據(jù)源是企業(yè)之間或企業(yè)內(nèi)部各部門之間協(xié)同合作的需要,超過30%的IT預(yù)算被用于構(gòu)建和維護(hù)遺留系統(tǒng)間Excel數(shù)據(jù)源的集成.Excel簡單易用,其豐富的格式控制和數(shù)據(jù)處理能力對各種信息都十分適合,比如姓名清單、產(chǎn)品清單、金融數(shù)據(jù)等等,也是保存統(tǒng)計數(shù)據(jù)的最流行的電子表格格式.但與關(guān)系數(shù)據(jù)庫或XML數(shù)據(jù)庫相比,Excel在數(shù)據(jù)集成、數(shù)據(jù)查詢、數(shù)據(jù)分析、數(shù)據(jù)冗余等方面明顯不足.許多公司和行業(yè)使用Excel來準(zhǔn)備、編輯和保存數(shù)據(jù),但是它不適合后期查詢分析與統(tǒng)計,因此Excel數(shù)據(jù)源的集成和轉(zhuǎn)換迫在眉睫.Java提供的跨平臺語言和XML
4、提[1]供的跨平臺數(shù)據(jù)格式的完美結(jié)合將成為最佳的Excel數(shù)據(jù)集成的解決方案.本文利用JAVA技術(shù)、使用XML(ExtensibleMarkupLanguage)作為Excel數(shù)據(jù)的模板配置數(shù)據(jù)和轉(zhuǎn)換格式,實現(xiàn)Excel數(shù)據(jù)與XML數(shù)據(jù)的相互轉(zhuǎn)換,降低了程序開發(fā)難度和開發(fā)成本,實現(xiàn)異構(gòu)數(shù)據(jù)源信息系統(tǒng)的無縫集成.1Excel數(shù)據(jù)轉(zhuǎn)換方法1.1Excel數(shù)據(jù)轉(zhuǎn)換現(xiàn)狀企業(yè)中歷史遺留系統(tǒng)中Excel數(shù)據(jù)量通常情況下非常大,純?nèi)斯ひ詥卧駷閱挝粚xcel數(shù)據(jù)轉(zhuǎn)換成XML數(shù)據(jù)或?qū)氲疥P(guān)系數(shù)據(jù)庫中代碼量繁重、可靠性差,代價極其巨大.因此考慮用JAVA來操作Excel,將數(shù)據(jù)轉(zhuǎn)
5、換[2]成異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)信息XML,該技術(shù)編程量小、準(zhǔn)確度高且便于維護(hù)和集成處理,Excel和其它數(shù)據(jù)源集成和轉(zhuǎn)收稿日期:2010-02-04作者簡介:夏開建(1983—),男,江蘇宿遷人,常熟理工學(xué)院計算機科學(xué)與工程學(xué)院助教,碩士,研究方向:計算機圖形學(xué)、圖形圖像處理.夏開建,嚴(yán)小泉:基于XML的Excel數(shù)據(jù)提取和集成研究117換如圖1所示,其中每個數(shù)據(jù)源對應(yīng)一個包裝器,由包裝器來與其封裝的數(shù)據(jù)源交互,提取各本地數(shù)據(jù)源的XML元數(shù)據(jù),最終經(jīng)過數(shù)據(jù)清除、數(shù)據(jù)集成等操作融合數(shù)據(jù),達(dá)到異構(gòu)數(shù)據(jù)源集成的目的,本文只討論Excel數(shù)據(jù)源與XML數(shù)據(jù)的相互轉(zhuǎn)換.在Web應(yīng)用
6、日益盛行的今天,通過Web來集成轉(zhuǎn)換Excel文件的需求越來越強烈.目前較為流行的處理Excel數(shù)據(jù)的方法主要有三種:[3](1)不操作實際的Excel文件,而是在JSP或Servlet中創(chuàng)建一個CSV(comma-separatedvalue)文件,CSV是用來交換電子表格文件的常用格式,任何適當(dāng)?shù)碾娮颖砀穸伎梢酝ㄟ^CSV文件導(dǎo)出和導(dǎo)入,它在頭文件中以applica-tion/vnd.ms-excel類型返回給瀏覽器,接著瀏覽器調(diào)用Excel顯示或者下載Excel文件,但這不能算是真正意義上的操作Excel文件.圖1Excel和其它數(shù)據(jù)源集成與轉(zhuǎn)換(2)利用第三
7、方工具來實現(xiàn)Excel數(shù)據(jù)與關(guān)系數(shù)據(jù)庫表文件的導(dǎo)入導(dǎo)出.例如:Microsoft公司的SQLServer2005提供的導(dǎo)入導(dǎo)出輔助工具,能夠?qū)⒏袷奖容^簡單的Excel數(shù)據(jù)自動導(dǎo)入到關(guān)系數(shù)據(jù)庫中或者將數(shù)據(jù)庫表記錄導(dǎo)出到Excel文件中;開源數(shù)據(jù)庫MySQL的輔助軟件MySQL-Front也提供了Excel文件導(dǎo)入導(dǎo)出功能.但是此類工具的功能有限,只能實現(xiàn)行列規(guī)范的Excel數(shù)據(jù)和關(guān)系數(shù)據(jù)庫表文件的轉(zhuǎn)換.(3)利用JavaExcelAPI操作和轉(zhuǎn)換Excel,轉(zhuǎn)換成XML文件使它可以運行于任何平臺,并且很容易地實現(xiàn)異構(gòu)數(shù)據(jù)源集成;格式復(fù)雜的圖表輸出,如表1(單元格合并
8、、對齊、字