資源描述:
《基于KNN算法的手寫字母識別.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、基于KNN算法的手寫字母識別作者:劉方舟來源:《全國流通經(jīng)濟(jì)》2019年第03期????????摘要:數(shù)據(jù)挖掘是指通過多種算法從海量數(shù)據(jù)中搜索隱藏于其中有用信息的過程。在無序中尋找有序、在紛亂中發(fā)現(xiàn)規(guī)律,是數(shù)據(jù)挖掘的核心價值所在。它主要通過數(shù)理統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)、模式識別等諸多方法來實現(xiàn)既定目標(biāo)。本文利用數(shù)據(jù)挖掘中的K近鄰算法(KNN),根據(jù)從大量手寫英文字母圖像中提取出的原始特征屬性,對手寫字母進(jìn)行計算機(jī)算法自動分類,從而達(dá)到對手寫字母識別的目的。這對于在電腦編輯大大多于手寫文本的快節(jié)奏現(xiàn)實生活中,及時準(zhǔn)確
2、識別出手寫文獻(xiàn)信息內(nèi)容,具有重要意義。????????關(guān)鍵詞:數(shù)據(jù)挖掘;人工智能;KNN;手寫英文字母識別????????中圖分類號:F062.9文獻(xiàn)識別碼:A文章編號:2096-3157(2019)03-0097-03????????一、前言????????在經(jīng)濟(jì)全球化、社會信息化時代,信息傳播更多借助于網(wǎng)絡(luò),計算機(jī)技術(shù)越來越成為人們生活不可分割的一部分。秉筆傳書的幾率日益下降,而這一趨勢的加快,客觀造成了人們書寫規(guī)范性的弱化,進(jìn)而帶來手寫體識別難度的增加。但不論電腦能在多大程度上代替人的勞動,手動書寫仍然在諸多工作、學(xué)習(xí)、生活領(lǐng)域占據(jù)
3、主導(dǎo)地位。上至文件的簽署、領(lǐng)導(dǎo)的批示、高管的簽字,下至課堂教學(xué)的板書、會議精神的速記、醫(yī)生開出的藥方,都面臨如何快速準(zhǔn)確識別的問題,因此,借助人工智能實現(xiàn)手寫文書的識別,就成為當(dāng)下信息交互迫切需要的應(yīng)用性技術(shù)[1]。這就為數(shù)據(jù)挖掘技術(shù)在手寫文獻(xiàn)識別的運用提供了發(fā)揮的空間。????????近年來,數(shù)據(jù)挖掘在多個領(lǐng)域顯示了技術(shù)優(yōu)勢[2],如Siri聲音識別、美顏相機(jī)人臉表情識別、情緒識別、智能安全監(jiān)控系統(tǒng)行人姿態(tài)識別等,這對于實行精確化管理、快速偵辦案件、多語種相互轉(zhuǎn)換、疑難病理分析等,都帶來了極大便利[3]。如今,在手寫字母識別領(lǐng)域,人們也
4、進(jìn)行了積極探索,取得了可喜進(jìn)展。但與其他領(lǐng)域相比,還有太多的難題需要破解,關(guān)鍵是技術(shù)路徑的選擇和開發(fā),急需創(chuàng)新突破。????????二、研究內(nèi)容????????手寫字母識別是計算機(jī)自動辨認(rèn)手寫體英文字母的一種技術(shù),是光學(xué)字符識別技術(shù)的一個分支[4]。26個英文字母(A,B,C,…,Z)是構(gòu)成英文單詞、句子的最基本元素,在以英語為主要語言的國家的日常生活中十分常用。手寫字母識別的研究通用性很強(qiáng),如果能夠研究開發(fā)先進(jìn)的計算機(jī)數(shù)據(jù)挖掘算法,使得計算機(jī)能夠自動識別人們手寫的英文字母,對其進(jìn)行分析鑒別,將具有重要的使用意義[5]。????????在
5、人們的日常生活中,手寫字母識別有著十分廣泛的應(yīng)用,例如,將該技術(shù)應(yīng)用于信用卡簽名,用計算機(jī)對信用卡簽名進(jìn)行自動核對,防止信用卡盜刷,大大提高其安全性。使用手寫字母識別技術(shù)可以將歷經(jīng)艱險保存到現(xiàn)在的古代文獻(xiàn)方便地錄入至電腦中,安全地保存其數(shù)據(jù),避免了傳統(tǒng)方法中主要依賴于人力手工錄入的弊端,大大節(jié)省了人力、物力和財力,防止數(shù)據(jù)隨著原件的損壞而銷毀。使用手寫字母識別技術(shù)可以將紙上的文字錄入至電腦中,方便了歷史資料、文獻(xiàn)等紙媒體文字的保存,使后續(xù)的查閱與修改更加方便、快捷。手寫字母識別還可以應(yīng)用于電腦閱卷系統(tǒng),通過將學(xué)生在考場上完成的英語作文錄入
6、至電腦中,轉(zhuǎn)換成標(biāo)準(zhǔn)電腦英文字體的文字,方便閱卷者進(jìn)行判分,從而減少了由于學(xué)生自身能力之外的因素(如筆跡混亂,字體模糊,書寫整潔度低等)給老師帶來的閱卷體驗的影響,增加了考試中的公平性。????????三、研究方法????????本實驗的主要目的是利用數(shù)據(jù)挖掘方法[6],根據(jù)從大量手寫字母圖像中提取出的數(shù)個原始特征屬性進(jìn)行分類,從而達(dá)到手寫字母識別的目的。目前最常用的分類算法是KNN算法[7]。????????鄰近算法,或者說K最近鄰(KNN,k-NearestNeigh-bor)分類算法是數(shù)據(jù)挖掘分類技術(shù)中最簡單的方法之一。所謂K最近鄰
7、,就是K個最近的鄰居的意思,說的是每個樣本都可以用它最接近的K個鄰居來代表。????????KNN算法的核心思想是,如果一個樣本在特征空間中的K個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。KNN方法在類別決策時,只與極少量的相鄰樣本有關(guān)[8]。????????KNN具體計算步驟如下:????????1.計算每一個測試數(shù)據(jù)與所有訓(xùn)練數(shù)據(jù)之間的距離,這里距離的度量通常采用歐式距離以及曼哈頓距離;????????2
8、.將所得到的所有距離,按照遞增關(guān)系進(jìn)行排序;????????3.選取距離最小的K個樣本;????????4.確定前K個樣本所述的類別標(biāo)簽;????????5.返回前K個樣本中出現(xiàn)頻率最高的類別