資源描述:
《第6章 機(jī)器人視覺ppt課件.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第六章 機(jī)器人視覺第一部分響應(yīng)機(jī)器“機(jī)器人視覺(computervision)”這個(gè)學(xué)科所研究的問題領(lǐng)域十分廣闊,不僅包括通用技術(shù),而且也包括為數(shù)眾多的專用技術(shù)——如字符識(shí)別、相片解釋、臉譜識(shí)別、指紋識(shí)別和機(jī)器人控制等等。概念一??機(jī)器人視覺的困難主要來源于難以控制的照明、影像和復(fù)雜而難以描述的物體,如那些室外場景中的物體、非剛性物體或嚙合其他物體的物體。其中有些困難在人造環(huán)境中(如建筑物的室內(nèi)景觀)可得以減輕,而且在這種環(huán)境中研究計(jì)算機(jī)視覺往往更成功。?概念二計(jì)算機(jī)視覺首先是在一組感光性原件上,如電視攝像機(jī)的光電管,生成一個(gè)場景的圖像(對(duì)立體視覺需
2、生成兩個(gè)或兩個(gè)以上的圖像)。這個(gè)圖像是攝像機(jī)通過鏡頭對(duì)在視野中的場景進(jìn)行一個(gè)透視投影,然后光電元件將其轉(zhuǎn)換成一個(gè)二維的、隨時(shí)間變化的亮度矩陣圖像I(x,y,t),其中x和y為光電元件在數(shù)組中的位置,t為時(shí)間(對(duì)有色視覺,需形成三個(gè)這樣的矩陣來分別代表三原色。但我們?cè)谶@里只考慮單色的情況,同時(shí)排除了可變時(shí)間——即假設(shè)一個(gè)靜態(tài)場景)。一個(gè)由視覺引導(dǎo)的響應(yīng)agent必須通過處理這個(gè)矩陣來產(chǎn)生這個(gè)場景的圖標(biāo)模型或者一組特征,從而使它能直接計(jì)算一個(gè)動(dòng)作。透視投影是多對(duì)一的變換。多個(gè)不同的場景可能生成相同的圖像。概念三?更麻煩的是,圖像易受到周圍光線不足或其他因
3、素的干擾,這樣,我們就不能直接轉(zhuǎn)換圖像來重建場景。因此,agent通過運(yùn)用可能處于有關(guān)場景中的物體的特定知識(shí)、有關(guān)場景中的各種表面的特性以及由這些表面反射回?cái)z像機(jī)的周圍照明度等一般知識(shí)來從圖像中獲取有用的信息。概念四?希望獲取信息的種類取決于agent的目的和任務(wù):若要讓一個(gè)agent平安地通過一個(gè)混亂的環(huán)境,這個(gè)agent必須了解其中物體的位置、邊界、通路以及它所經(jīng)路徑表面的特性。agent若想要操縱物體,就必須知道這些物體的位置、大小、形狀、成分和構(gòu)造等。對(duì)其他目的而言,agent也許應(yīng)了解顏色并能識(shí)別它們的類別。agent也許還應(yīng)具備根據(jù)每隔一
4、段時(shí)間所有以上信息的變化來預(yù)測將來可能的變化。從一個(gè)或多個(gè)圖像中獲取此類信息將極其困難。示例基于神經(jīng)網(wǎng)絡(luò)的自治的地面車輛——ALVINN系統(tǒng)系統(tǒng)的輸入來自一個(gè)低解析度(30x32)的電視圖像。一個(gè)電視攝像機(jī)被架在汽車上對(duì)準(zhǔn)前面的道路,電視圖像被采樣并為神經(jīng)網(wǎng)絡(luò)產(chǎn)生一系列960維的輸入向量。網(wǎng)絡(luò)的第一層有5個(gè)隱藏單元,第二層有30個(gè)輸出單元,所有以上單元均為sigmoid單元。輸出單元通過線性排列來控制汽車的角度。若此輸出單元隊(duì)列的頂端附近的一個(gè)輸出單元的輸出比其他大多數(shù)輸出單元高,則車往左行駛;若在此隊(duì)列的底端附近的一個(gè)單元的輸出較高,則車往右行駛。
5、計(jì)算出所有這些輸出單元的響應(yīng)的“質(zhì)心”,并且把此車的駕駛角度設(shè)置為完全向左和完全向右之間相應(yīng)的一個(gè)值。說明機(jī)器人視覺的兩個(gè)階段有兩種計(jì)算機(jī)視覺技術(shù)對(duì)勾勒出與場景中的物體相關(guān)的各部分圖像的輪廓十分有用:一種技術(shù)是在圖像中尋找“邊緣”。一個(gè)圖像邊緣是圖像的一部分,圖像亮度或其他圖像的特性在此處陡然變化。另一種技術(shù)試圖把圖像分為幾個(gè)區(qū)域,一個(gè)區(qū)域也是圖像的一部分,圖像亮度或其他圖像的特性在此處緩慢變化。圖像中的邊緣和區(qū)域之間的邊界,經(jīng)常但不總是與場景中產(chǎn)生圖像的那些重要的、與物體相關(guān)的不連續(xù)點(diǎn)相對(duì)應(yīng)。圖像處理階段主要把原始圖像轉(zhuǎn)換成更適合于景物分段的圖像。
6、圖像處理包括降低噪聲、增強(qiáng)邊緣和尋找圖像區(qū)域等不同的濾波操作。實(shí)際的機(jī)器人視覺涉及更多的階段,而且這些階段一般都相互影響。視覺處理過程可分成兩個(gè)主要階段:景物分析階段主要試圖從已處理的圖像中產(chǎn)生一個(gè)對(duì)原始場景的圖標(biāo)描述或基于特征的描述,并提供agent所處場景中與特定任務(wù)有關(guān)的信息。示例首先,圖像處理排除偽造的噪聲并增強(qiáng)物體的邊緣以及其他不連續(xù)點(diǎn)。接著,已知世界中的物體的形狀均由直線邊界構(gòu)成,景物分析會(huì)產(chǎn)生一個(gè)對(duì)此世界的圖標(biāo)表示(與用于計(jì)算機(jī)圖形學(xué)中的模型相似)。通常,這個(gè)圖標(biāo)模型用來更新存儲(chǔ)在內(nèi)存中的更全面的環(huán)境模型,然后計(jì)算出適合于這個(gè)假設(shè)環(huán)境狀
7、態(tài)的動(dòng)作。假設(shè)只有積木的布局比較重要。那么,圖標(biāo)模型應(yīng)為一個(gè)表結(jié)構(gòu)((CBA FLOOR)),它表示C在B上,B在A上,而A在地板上。若C被移到地板上,那么圖標(biāo)模型應(yīng)為((CFLOOR)(BAFLOOR))(也可以是((BAFLOOR)(CFLOOR)),但這里我們假設(shè)積木的相對(duì)水平位置無關(guān)緊要,這樣,表結(jié)構(gòu)的第一級(jí)元素的順序就無表達(dá)意義)。因?yàn)槊恳粋€(gè)元件的最后一個(gè)元素均為FLOOR,所以我們可以去掉這一項(xiàng)來縮短表結(jié)構(gòu)。對(duì)于根本不用圖標(biāo)模型的機(jī)器人來說,景物分析會(huì)用另一種方法把處理過的圖像直接轉(zhuǎn)換成適合于機(jī)器人任務(wù)的特征。如,若機(jī)器人必須判定積木C上
8、是會(huì)有其他積木,那么,一個(gè)對(duì)環(huán)境的描述應(yīng)包括一個(gè)特征值,如CLEAR_C,積木C上無其他物體時(shí)這個(gè)特征值為1