資源描述:
《淺談數(shù)據(jù)挖掘技術(shù)在公安領(lǐng)域中的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、2008年第4期福建警察學院學報No42008(總第104期)JOURNALOFFUJIANPOLICEACADEMYSerialNo104淺談數(shù)據(jù)挖掘技術(shù)在公安領(lǐng)域中的應(yīng)用郭亮山(福建警察學院計算機與信息管理系,福建福州350007)摘要:當前,我國各類公安信息化系統(tǒng)在警務(wù)數(shù)據(jù)處理與查詢方面發(fā)揮了重要作用,但信息的深層次挖掘很不充分,分析功能相當欠缺。通過決策樹在犯罪風險模型和關(guān)聯(lián)規(guī)則在公安出入境數(shù)據(jù)的挖掘,發(fā)現(xiàn)、提取出有價值的知識和規(guī)則,為輔助決策和參考提供科學依據(jù)。關(guān)鍵詞:數(shù)據(jù)挖掘;公安信息;決策樹;關(guān)聯(lián)規(guī)則;ID3算法中圖分類號:D63115文獻標識碼:ATheApp
2、licationofDataMiningontheFieldofPublicSafetyGUOLiangshan(DepartmentofComputerandInformationManagement,FujianPoliceAcademy,Fuzhou350007,China)Abstract:Currently,variouspublicsecuritymanagementinformationsystemsplayanimportantroleinpolicedataprocessingandenquiries,buttheinformationresourcesavailable
3、can'tbefullyusedforpeoplehaveignoredthevaluesofinformationresources.Tryminingtocrimeriskmodelandpublicsecurityimmigrationdatabydecisiontreeandassociationrulesmethods,tofindextractknowledgeorrulesandexploitthem,toprovideascientificbasisfordecision.Keywords:datamining;policeinformation;decisiontree;
4、associationrule;ID3algorithm引言一、數(shù)據(jù)挖掘技術(shù)簡介[1]當前以金盾工程!為載體的公安信息化、數(shù)字數(shù)據(jù)挖掘(DataMining),也稱數(shù)據(jù)庫中的知化建設(shè)中,開發(fā)了各類公安業(yè)務(wù)應(yīng)用系統(tǒng),如公安人識發(fā)現(xiàn)(KDD:KnowledgeDiscoveryinDatabase),事管理、經(jīng)偵、刑技、治安、監(jiān)管、邊防、消防、交通管是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取人們感興趣的理、外管、禁毒、計算機安全監(jiān)察、警用裝備等系統(tǒng),知識,這些知識是隱含的、事先未知而又潛在有用的建設(shè)和完善了國家違法犯罪信息中心(CCIC)。但信息,提取的知識一般可表示為概念(Concepts)、規(guī)是目
5、前這些系統(tǒng)基本上僅限于本部門的應(yīng)用,形成則(Rules)、規(guī)律(Regularities)、模式(Patterns)等了許多信息孤島!。通過數(shù)據(jù)倉庫技術(shù)對這些系統(tǒng)形式。用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機器學習的數(shù)據(jù)進行合理的整合,再利用數(shù)據(jù)挖掘技術(shù)將這方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識,這兩者些海量數(shù)據(jù)進行挖掘,以發(fā)現(xiàn)一些隱含的、潛在的、的結(jié)合促成了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生。數(shù)據(jù)挖掘是一有用的信息及事件之間的相互聯(lián)系,從而對未來的門交叉性學科,涉及機器學習、模式識別、歸納推理、活動作進一步的預(yù)測,實現(xiàn)快速、準確輔助警務(wù)決統(tǒng)計學、數(shù)據(jù)庫、數(shù)據(jù)可視化、高性能計算等多個領(lǐng)策,指導警務(wù)工作,提高執(zhí)法效率
6、,節(jié)省執(zhí)法成本的域。目標。常見的數(shù)據(jù)挖掘任務(wù)可以歸納為6種,包括分收稿日期:20080603作者簡介:郭亮山(1982-),男,福建警察學院計算機與信息管理系教師,研究方向:數(shù)據(jù)庫與數(shù)據(jù)挖掘。32淺談數(shù)據(jù)挖掘技術(shù)在公安領(lǐng)域中的應(yīng)用類(Classification)、估計(Estimation)、預(yù)測(PredicID3算法基本原理:設(shè)H=F1?F2?#?Fn是tion)、關(guān)聯(lián)分組(AffinityGrouping)或關(guān)聯(lián)規(guī)則N維有窮向量空間,其中Fj是有窮離散符號集,H(AssociationRule)、聚類(Clustering)、描述和建立中的元素俄e=叫做例
7、子,其中。vj簡檔(DescriptionandProfiling)。其中前3項是定?Fj,j=1,2#,n。向數(shù)據(jù)挖掘任務(wù),目的是發(fā)現(xiàn)特定目標變量的值。設(shè)PE和NE是E的兩個例子集,分別叫做正關(guān)聯(lián)分組和聚類是非定向挖掘任務(wù),目的是在不限例集和反例集。定目標變量的情況下揭示數(shù)據(jù)的結(jié)構(gòu)。建立簡檔可假設(shè)向量空間H中的正例集PE和反例集NE能是定向的,也可能是非定向的數(shù)據(jù)挖掘任務(wù)。的大小分別為P和N,ID3算法基于