基于KNN算法的手寫字母識別.doc

基于KNN算法的手寫字母識別.doc

ID:57275235

大?。?0.00 KB

頁數(shù):5頁

時間:2020-08-08

基于KNN算法的手寫字母識別.doc_第1頁
基于KNN算法的手寫字母識別.doc_第2頁
基于KNN算法的手寫字母識別.doc_第3頁
基于KNN算法的手寫字母識別.doc_第4頁
基于KNN算法的手寫字母識別.doc_第5頁
資源描述:

《基于KNN算法的手寫字母識別.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、基于KNN算法的手寫字母識別作者:劉方舟來源:《全國流通經(jīng)濟(jì)》2019年第03期????????摘要:數(shù)據(jù)挖掘是指通過多種算法從海量數(shù)據(jù)中搜索隱藏于其中有用信息的過程。在無序中尋找有序、在紛亂中發(fā)現(xiàn)規(guī)律,是數(shù)據(jù)挖掘的核心價值所在。它主要通過數(shù)理統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)、模式識別等諸多方法來實現(xiàn)既定目標(biāo)。本文利用數(shù)據(jù)挖掘中的K近鄰算法(KNN),根據(jù)從大量手寫英文字母圖像中提取出的原始特征屬性,對手寫字母進(jìn)行計算機(jī)算法自動分類,從而達(dá)到對手寫字母識別的目的。這對于在電腦編輯大大多于手寫文本的快節(jié)奏現(xiàn)實生活中,及時準(zhǔn)確

2、識別出手寫文獻(xiàn)信息內(nèi)容,具有重要意義。????????關(guān)鍵詞:數(shù)據(jù)挖掘;人工智能;KNN;手寫英文字母識別????????中圖分類號:F062.9文獻(xiàn)識別碼:A文章編號:2096-3157(2019)03-0097-03????????一、前言????????在經(jīng)濟(jì)全球化、社會信息化時代,信息傳播更多借助于網(wǎng)絡(luò),計算機(jī)技術(shù)越來越成為人們生活不可分割的一部分。秉筆傳書的幾率日益下降,而這一趨勢的加快,客觀造成了人們書寫規(guī)范性的弱化,進(jìn)而帶來手寫體識別難度的增加。但不論電腦能在多大程度上代替人的勞動,手動書寫仍然在諸多工作、學(xué)習(xí)、生活領(lǐng)域占據(jù)

3、主導(dǎo)地位。上至文件的簽署、領(lǐng)導(dǎo)的批示、高管的簽字,下至課堂教學(xué)的板書、會議精神的速記、醫(yī)生開出的藥方,都面臨如何快速準(zhǔn)確識別的問題,因此,借助人工智能實現(xiàn)手寫文書的識別,就成為當(dāng)下信息交互迫切需要的應(yīng)用性技術(shù)[1]。這就為數(shù)據(jù)挖掘技術(shù)在手寫文獻(xiàn)識別的運用提供了發(fā)揮的空間。????????近年來,數(shù)據(jù)挖掘在多個領(lǐng)域顯示了技術(shù)優(yōu)勢[2],如Siri聲音識別、美顏相機(jī)人臉表情識別、情緒識別、智能安全監(jiān)控系統(tǒng)行人姿態(tài)識別等,這對于實行精確化管理、快速偵辦案件、多語種相互轉(zhuǎn)換、疑難病理分析等,都帶來了極大便利[3]。如今,在手寫字母識別領(lǐng)域,人們也

4、進(jìn)行了積極探索,取得了可喜進(jìn)展。但與其他領(lǐng)域相比,還有太多的難題需要破解,關(guān)鍵是技術(shù)路徑的選擇和開發(fā),急需創(chuàng)新突破。????????二、研究內(nèi)容????????手寫字母識別是計算機(jī)自動辨認(rèn)手寫體英文字母的一種技術(shù),是光學(xué)字符識別技術(shù)的一個分支[4]。26個英文字母(A,B,C,…,Z)是構(gòu)成英文單詞、句子的最基本元素,在以英語為主要語言的國家的日常生活中十分常用。手寫字母識別的研究通用性很強(qiáng),如果能夠研究開發(fā)先進(jìn)的計算機(jī)數(shù)據(jù)挖掘算法,使得計算機(jī)能夠自動識別人們手寫的英文字母,對其進(jìn)行分析鑒別,將具有重要的使用意義[5]。????????在

5、人們的日常生活中,手寫字母識別有著十分廣泛的應(yīng)用,例如,將該技術(shù)應(yīng)用于信用卡簽名,用計算機(jī)對信用卡簽名進(jìn)行自動核對,防止信用卡盜刷,大大提高其安全性。使用手寫字母識別技術(shù)可以將歷經(jīng)艱險保存到現(xiàn)在的古代文獻(xiàn)方便地錄入至電腦中,安全地保存其數(shù)據(jù),避免了傳統(tǒng)方法中主要依賴于人力手工錄入的弊端,大大節(jié)省了人力、物力和財力,防止數(shù)據(jù)隨著原件的損壞而銷毀。使用手寫字母識別技術(shù)可以將紙上的文字錄入至電腦中,方便了歷史資料、文獻(xiàn)等紙媒體文字的保存,使后續(xù)的查閱與修改更加方便、快捷。手寫字母識別還可以應(yīng)用于電腦閱卷系統(tǒng),通過將學(xué)生在考場上完成的英語作文錄入

6、至電腦中,轉(zhuǎn)換成標(biāo)準(zhǔn)電腦英文字體的文字,方便閱卷者進(jìn)行判分,從而減少了由于學(xué)生自身能力之外的因素(如筆跡混亂,字體模糊,書寫整潔度低等)給老師帶來的閱卷體驗的影響,增加了考試中的公平性。????????三、研究方法????????本實驗的主要目的是利用數(shù)據(jù)挖掘方法[6],根據(jù)從大量手寫字母圖像中提取出的數(shù)個原始特征屬性進(jìn)行分類,從而達(dá)到手寫字母識別的目的。目前最常用的分類算法是KNN算法[7]。????????鄰近算法,或者說K最近鄰(KNN,k-NearestNeigh-bor)分類算法是數(shù)據(jù)挖掘分類技術(shù)中最簡單的方法之一。所謂K最近鄰

7、,就是K個最近的鄰居的意思,說的是每個樣本都可以用它最接近的K個鄰居來代表。????????KNN算法的核心思想是,如果一個樣本在特征空間中的K個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。KNN方法在類別決策時,只與極少量的相鄰樣本有關(guān)[8]。????????KNN具體計算步驟如下:????????1.計算每一個測試數(shù)據(jù)與所有訓(xùn)練數(shù)據(jù)之間的距離,這里距離的度量通常采用歐式距離以及曼哈頓距離;????????2

8、.將所得到的所有距離,按照遞增關(guān)系進(jìn)行排序;????????3.選取距離最小的K個樣本;????????4.確定前K個樣本所述的類別標(biāo)簽;????????5.返回前K個樣本中出現(xiàn)頻率最高的類別

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。