資源描述:
《周志華 機器學習ppt Chap01緒論課件.ppt》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、機器學習導論(2016春季學期)一、緒論機器學習機器學習是從人工智能中產(chǎn)生的一個重要學科分支,是實現(xiàn)智能化的關鍵機器學習機器學習(MachineLearning)究竟是什么東東?看個例子“文獻篩選”的故事[C.Brodleyetal.,AIMagazine2012]在“循證醫(yī)學”(evidence-basedmedicine)中,針對特定的臨床問題,先要對相關研究報告進行詳盡評估查詢PubMed以獲取候選摘要人工找出值得全文審讀的文章“文獻篩選”的故事在一項關于嬰兒和兒童殘疾的研究中,美國Tufts醫(yī)學中心篩選了約33,000篇摘要盡管Tufts醫(yī)
2、學中心的專家效率很高,對每篇摘要只需30秒鐘,但該工作仍花費了250小時每項新的研究都要重復這個麻煩的過程!需篩選的文章數(shù)在不斷顯著增長!“文獻篩選”的故事為了降低昂貴的成本,Tufts醫(yī)學中心引入了機器學習技術邀請專家閱讀少量摘要,標記為“有關”或“無關”分類模型對是否“有關”進行預測人類專家只需閱讀50篇摘要,系統(tǒng)的自動篩選精度就達到93%人類專家閱讀1,000篇摘要,則系統(tǒng)的自動篩選敏感度達到95%(人類專家以前需閱讀33,000篇摘要才能獲得此效果)色澤根蒂敲聲好瓜青綠蜷縮濁響是烏黑蜷縮濁響是青綠硬挺清脆否烏黑稍蜷沉悶否決策樹,神經(jīng)網(wǎng)絡,支
3、持向量機,Boosting,貝葉斯網(wǎng),……模型訓練數(shù)據(jù)(label)訓練新數(shù)據(jù)樣本(淺白,蜷縮,濁響,?)?=是類別標記未知典型的機器學習過程使用學習算法(learningalgorithm)類別標記機器學習與數(shù)據(jù)挖掘機器學習能做什么?我們可能每天都在用機器學習權16南京大學機器學習導論課程專用所有20保留機器學習模型搜索引擎機器學習技術正在支撐著各種搜索引擎搜索:南京大學例如:互聯(lián)網(wǎng)搜索……有器學習導論課程專保留權用所2016南京大學機例如:自動汽車駕駛(即將改變?nèi)祟惿睿C器學習模型方向盤旋轉幅度油門幅度剎車幅度車載攝像頭車載雷達控制汽車美國在
4、20世紀80年代就開始研究基于機器學習的汽車自動駕駛技術DARPAGrandChallenge–20042016南京大學機器學習導論課程專用所有權保留機器學習能做什么?小數(shù)據(jù)上就已經(jīng)很有用2016南京大學機器學習導論課程專用所有權保留例如:畫作鑒別(藝術)畫作鑒別(paintingauthentication):確定作品的真?zhèn)尾斏w爾(1525-1569)的作品?出自[J.Hughesetal.,PNAS2009]梵高(1853-1890)的作品?出自[C.Johnsonetal.,IEEE-SP,2008]機器學習導論2016南京大學課程專用所有
5、權保留例如:畫作鑒別(藝術)除專用技術手段外,筆觸分析(brushstrokeanalysis)是畫作鑒定的重要工具;它旨在從視覺上判斷畫作中是否具有藝術家的特有“筆跡”。該工作對專業(yè)知識要求極高-具有較高的繪畫藝術修養(yǎng)-掌握畫家的特定繪畫習慣只有少數(shù)專家花費很大精力才能完成分析工作!很難同時掌握不同時期、不同流派多位畫家的繪畫風格![C.Johnsonetal.,IEEE-SP,2008]論課程專用所有權16南京大學20機器學習導保留例如:畫作鑒別(藝術)真跡+贗品特有“筆跡”待鑒定畫作為了降低分析成本,機器學習技術被引入自動鑒定分類模型Kr?l
6、lerMüller美術館與Cornell等大學的學者對82幅梵高真跡和6幅贗品進行分析,自動鑒別精度達95%[C.Johnsonetal.,IEEE-SP,2008]Dartmouth學院、巴黎高師的學者對8幅勃魯蓋爾真跡和5幅贗品進行分析,自動鑒別精度達100%[J.Hughesetal.,PNAS2009][J.Mairaletal.,PAMI’12](對用戶要求低、準確高效、適用范圍廣)2016南京大學機器學習導論課程專用所有權保留例如:古文獻修復(文化)古文獻是進行歷史研究的重要素材,但是其中很多損毀嚴重DeadSeaScrolls(死海古
7、卷)-1947年出土-超過30,000個羊皮紙片段CairoGenizah-19世紀末被發(fā)現(xiàn)-超過300,000個片段-散布于全球多家博物館高水平專家的大量精力被用于古文獻修復[L.Wolfetal.,IJCV2011]2016南京大學機器學習導論課程專用所有權保留例如:古文獻修復(文化)一個重要問題:原書籍已經(jīng)變成分散且混雜的多個書頁,如何拼接相鄰的書頁?人工完成書頁拼接十分困難-書頁數(shù)量大,且分布在多處-部分損毀較嚴重,字跡模糊-需要大量掌握古文字的專業(yè)人才近年來,古文獻的數(shù)字化浪潮給自動文學修復提供了機會所有權保留2016南京大學機器學習導論
8、課程專用例如:古文獻修復(文化)以色列特拉維夫大學的學者將機器學習用于自動的書頁拼接已確定相鄰已確定不相鄰分類模型判斷是否