資源描述:
《基于Web開源數(shù)據(jù)挖掘的企業(yè)競爭情報系統(tǒng)研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、摘要隨著互聯(lián)信息的多元化,互聯(lián)網(wǎng)上海量的信息源能提供豐富的情報信息來源,因此互聯(lián)網(wǎng)上的開源情報越來越受到情報工作人員的重視。本文通過互聯(lián)網(wǎng)開源情報搜集技術和情報分析理論的研究,旨在構建集情報采集、情報分析、情報服務于一體的企業(yè)競爭性情報系統(tǒng)。本文系統(tǒng)地闡述了企業(yè)競爭情報的理論,提出了基于Web開源數(shù)據(jù)挖掘的企業(yè)競爭情報系統(tǒng)體系構架,將企業(yè)競爭性情報系統(tǒng)劃分為情報搜集子系統(tǒng)、情報分析子系統(tǒng)和情報服務子系統(tǒng)。在情報搜集子系統(tǒng)中采用了主題的網(wǎng)絡聚焦爬蟲和元搜索數(shù)據(jù)采集技術保證數(shù)據(jù)采集主題的相關性,構建網(wǎng)絡爬蟲器對Web數(shù)據(jù)進行自動采集和下載,通過網(wǎng)頁J下文抽取技術、PDF與Offic
2、e文檔文本轉(zhuǎn)換技術對下載的半結構化數(shù)據(jù)進行結構化處理,并對結構化數(shù)據(jù)采用“I—Match”算法進行文本查重,將數(shù)據(jù)全文索引后保存,構建起企業(yè)競爭性情報系統(tǒng)的情報自動采集和數(shù)據(jù)處理平臺。在情報分析子系統(tǒng)中,采用中文文本信息處理與挖掘相關的技術和方法對搜集的結構化數(shù)據(jù)進行了情報分類分析、企業(yè)戰(zhàn)略網(wǎng)絡分析、競爭對手分析,分析結果構建起企業(yè)競爭情報的產(chǎn)品體系。在情報服務子系統(tǒng)中提出了研究了企業(yè)的互聯(lián)網(wǎng)信息監(jiān)控服務的解決方案,對于監(jiān)控互聯(lián)網(wǎng)上企業(yè)的負面信息和競爭對手動態(tài)具有重要的應用價值。并構建了適合企業(yè)情報搜索服務的搜索引擎結構和提出了情報層次化應用體系?;赪eb開源數(shù)據(jù)構建的企業(yè)競
3、爭性情報系統(tǒng),能使企業(yè)充分開發(fā)和有效利用互聯(lián)網(wǎng)這個海量信息倉庫,并從中挖掘競爭性的價值情報,對于構建企業(yè)競爭戰(zhàn)略、提高企業(yè)核心競爭力具有十分重要的意義。關鍵詞:企業(yè)競爭情報Web開源情報采集情報挖掘情報分析企業(yè)戰(zhàn)略網(wǎng)絡ABSTRACTWiththediversityofinformationintheInteract,themassiveIntemetinfo冊ationprovidesarichsourceofintelligenceinformation,SOtheintelligenceworkerspaymoreattentiontotheopensourceintel
4、ligence.ThisarticleaimstoconstructanEnterpriseCompetitiveIntelligenceSystem(ECIS)whichassembleintelligenceautomaticcollection,intelligenceanalysisandintelligenceservicetoonewhole,accordingtoopensourceintelligencecollecttechnologyandanalysistheoryresearch.ThisarticleexpoundsEnterpriseCompetit
5、iveintelligencetheorysystematically,putsforwardanECISconstructionbasedonwebopensourcedatamininganddividestheECIStothreeparts:Intelligencecollectionsubsystem,IntelligenceanalysissubsystemandIntelligenceservicesubsystem.Intheintelligencecollectionsubsystem,thepapertakesthethemefocusederawlerme
6、thodandmeta。searchdatacollectingtechnologytoensurethecollecteddatarelativetogiventheme.Andthencreateacrawlertotraverseweblinksanddownloaddataautomatically.Withthesupportofwebpagescontentextraction,PDForOfficedocumentstextconversiontechnology,thecollectedsemi.structuredataisconvertedtostructu
7、raldata.Thepapertakes“I-Match’’algorithmtodetectandremoveduplicatedocuments,thenindexandstorethedata.Tosumup,thissegmentbuildsaautomaticdatacollectingandprocessingplatformfortheECIS.IIltheintelligenceanalysissubsystem,thepaperuseChinesetextinformat