資源描述:
《數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、2010年7月農(nóng)機化研究第7期數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用劉春玲,崔凌云,賈冬青,郝國芬,張煥生(河北工程技術(shù)高等專科學校,河北滄州061O01)摘要:數(shù)據(jù)挖掘作為一項極具應(yīng)用前景的技術(shù),在處理農(nóng)業(yè)領(lǐng)域積累的大量農(nóng)業(yè)數(shù)據(jù)信息中起著非常重要的作用。為此,結(jié)合農(nóng)業(yè)領(lǐng)域的特點,系統(tǒng)綜述了聚類分析、決策樹、關(guān)聯(lián)規(guī)則、粗糙集等主要數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)中的應(yīng)用現(xiàn)狀以及應(yīng)用前景。關(guān)鍵詞:數(shù)據(jù)挖掘;農(nóng)業(yè)信息;應(yīng)用中圖分類號:S126文獻標識碼:A文章編號:1003—188X(2010)07—0201—04數(shù)據(jù)挖掘過程主要包括確定業(yè)務(wù)對象、數(shù)據(jù)準備、數(shù)0引言據(jù)挖掘、結(jié)果分析4個步驟。常用的數(shù)據(jù)挖掘方法有
2、信息化是一個國家和地區(qū)的經(jīng)濟增長能力、綜合聚類分析、決策樹、關(guān)聯(lián)規(guī)則、遺傳算法、粗糙集等。實力和競爭力的重要體現(xiàn)。加快農(nóng)業(yè)信息化進程是推1.1聚類分析動農(nóng)業(yè)和農(nóng)村經(jīng)濟發(fā)展、農(nóng)民增收致富、農(nóng)村社會穩(wěn)聚類是把一組個體按照相似性歸納成若干類別,定的一項重要戰(zhàn)略措施。隨著計算機技術(shù)在農(nóng)業(yè)生產(chǎn)即“物以類聚”。其目的是使得屬于同一類別的個體中的廣泛應(yīng)用,農(nóng)業(yè)科技人員獲取、積累了大量與農(nóng)之間的距離盡可能小,而不同類別上的個體問的距離業(yè)生產(chǎn)過程密切相關(guān)的屬性數(shù)據(jù)和空間數(shù)據(jù),這些數(shù)盡可能大。利用聚類分析抽取學習樣本,首先將數(shù)據(jù)據(jù)真實、具體地反映了農(nóng)業(yè)生產(chǎn)作業(yè)的本質(zhì)狀況,是集劃分為個不相交的“類”,然后
3、對這個類中指導區(qū)域精準作業(yè)的寶貴財富。但由于農(nóng)業(yè)生產(chǎn)的的數(shù)據(jù)對象分別進行隨機抽取,這樣就可以最終獲得復雜性,使得農(nóng)業(yè)數(shù)據(jù)具有豐富、多維、動態(tài)、不完整、聚類采樣數(shù)據(jù)子集。聚類方法包括統(tǒng)計方法、機器學不確定等特性,導致了我們“淹沒在數(shù)據(jù)的海洋中,習方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫的方法。目前,數(shù)據(jù)豐富,知識貧乏”,所以需要用一種方法從上述結(jié)常用的聚類分析算法比較有代表性的有K2MEANS算構(gòu)化和半結(jié)構(gòu)化的大量數(shù)據(jù)中找出隱藏的規(guī)律,根據(jù)法、BIRCH算法、STNG算法、神經(jīng)網(wǎng)絡(luò)方法、DBSCAN規(guī)律制定正確的農(nóng)業(yè)策略,達到使農(nóng)業(yè)生產(chǎn)持續(xù)、高算法等。聚類分析算法常應(yīng)用模式識別和空間數(shù)據(jù)效、協(xié)調(diào)
4、發(fā)展的目的。數(shù)據(jù)挖掘技術(shù)(DataMining,分析等。DM)作為一種重要的數(shù)據(jù)處理和知識發(fā)現(xiàn)的技術(shù),能1.2決策樹夠有效地從農(nóng)業(yè)信息數(shù)據(jù)中找出潛在的和有用的農(nóng)決策樹是一棵樹,樹的根節(jié)點是整個數(shù)據(jù)集合空業(yè)知識,為農(nóng)業(yè)部門的科學決策和知識管理提供支間,每個分節(jié)點是對一個單一變量的測試,該測試將持,因此數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)領(lǐng)域中有著,一闊的應(yīng)用數(shù)據(jù)集合空間分割成2個或更多塊。每個葉節(jié)點是前景。屬于單一類別的記錄。首先,通過訓練集生成決策樹,再通過測試集對決策樹進行修剪。決策樹的功能1數(shù)據(jù)挖掘方法是預(yù)言一個新的記錄屬于哪一類。決策樹分為分類數(shù)據(jù)挖掘就是利用各種分析工具在海量數(shù)據(jù)中樹和回歸樹兩
5、種,分類樹對離散變量做決策樹,回歸發(fā)現(xiàn)模型和數(shù)據(jù)問關(guān)系的過程。使用這些模型和關(guān)樹對連續(xù)變量做決策樹。系可以進行預(yù)測,并幫助決策者尋找數(shù)據(jù)間潛在關(guān)1.3關(guān)聯(lián)規(guī)則聯(lián),發(fā)現(xiàn)被忽略的因素,因而被認為是解決當今時代關(guān)聯(lián)規(guī)則是從大量的數(shù)據(jù)中或?qū)ο箝g抽取其相所面臨的數(shù)據(jù)爆炸而信息貧乏問題的一種有效方法?;ブg的關(guān)聯(lián)性,揭示數(shù)據(jù)間未知的依賴關(guān)系,根據(jù)這種依賴關(guān)系,可以從某一數(shù)據(jù)對象的信息推斷出另收稿日期:2009—10—26一數(shù)據(jù)對象的信息。關(guān)聯(lián)規(guī)則比較典型的算法有作者簡介:劉春玲(1980一),女,河北滄州人,助教,碩士,(E—mail)liuchunling80@yahoo.tom.(31。Ap
6、riori算法和FP2Tree算法,F(xiàn)P2Tree算法是在Apri—20l0年7月農(nóng)機化研究第7期ori算法的基礎(chǔ)上改進的,采取分而治之的策略,不產(chǎn)幾個方回。生候選集,而是將數(shù)據(jù)庫的信息壓縮成一個描述頻繁2.1‘數(shù)據(jù)挖掘在農(nóng)業(yè)環(huán)境分析中的應(yīng)用項相關(guān)信息的頻繁模式樹,因而具有較好的完整性和數(shù)據(jù)挖掘在農(nóng)業(yè)環(huán)境監(jiān)測和環(huán)境保護方面起到緊密性。非常重要的作用。我國歷來對農(nóng)業(yè)環(huán)境狀況十分重1.4遺傳算法視,在基本農(nóng)田檢測、污水灌溉、面源污染、食品安全、遺傳算法是計算數(shù)學中用于解決最優(yōu)化的索算生態(tài)農(nóng)業(yè)法規(guī)標準等方面都積累并不斷擴充著大量法,是進化算法的一種。進化算法最初是借鑒了進化數(shù)據(jù)。利用數(shù)據(jù)倉
7、庫技術(shù)和數(shù)據(jù)挖掘技術(shù)對大量積生物學中的一些現(xiàn)象而發(fā)展起來的,這些現(xiàn)象包括遺累的農(nóng)業(yè)環(huán)境數(shù)據(jù)進行挖掘,對有效把握農(nóng)業(yè)環(huán)境狀傳、突變、自然選擇以及雜交等。況的全局,了解農(nóng)業(yè)污染發(fā)展趨勢和實施農(nóng)業(yè)環(huán)境保遺傳算法通常實現(xiàn)為一種計算機模擬。對于一護戰(zhàn)略提供有力保障。個最優(yōu)化問題,一定數(shù)量的候選解(稱為個體)的抽鄭向群等從土壤養(yǎng)分的數(shù)據(jù)庫中,挖掘出土壤肥象表示(稱為染色體)的種群向更好的解進化。傳統(tǒng)力評價規(guī)則,指導農(nóng)業(yè)生產(chǎn)的科學施肥,從農(nóng)田土壤上,解用二進制表示(即0