資源描述:
《輕輕松松掌握抓取圖片的三大要素》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、輕輕松松掌握抓取圖片的三大要素我們?cè)诓杉W(wǎng)頁(yè)圖片的過(guò)程中,會(huì)遇到很多問(wèn)題。掌握這三大要素:明確圖片網(wǎng)站類(lèi)型、學(xué)會(huì)使用圖片批量下載工具、明確能夠/不能夠?qū)崿F(xiàn)的功能,圖片采集不再是難事。一、明確圖片網(wǎng)站的幾大類(lèi)型1、非瀑布流網(wǎng)站的圖片采集示例網(wǎng)站:豆瓣網(wǎng)https://www.douban.com/photos/album/1620960735/?start=0八爪魚(yú)可以對(duì)網(wǎng)頁(yè)中圖片的URL進(jìn)行采集,然后通過(guò)專(zhuān)用的圖片批量下載工具將URL轉(zhuǎn)化為圖片,下載并保存到本地電腦。2、瀑布流網(wǎng)站的圖片采集:直接采集圖片地址示例網(wǎng)站:百度圖片網(wǎng)
2、https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&fm=index&pos=history&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90此類(lèi)網(wǎng)站,需要按下面的步驟對(duì)采集規(guī)則進(jìn)行Aj
3、ax滾動(dòng)設(shè)置:①點(diǎn)擊采集規(guī)則打開(kāi)網(wǎng)頁(yè)步驟的高級(jí)選項(xiàng);②勾選頁(yè)面加載完成后下滾動(dòng);③填寫(xiě)滾動(dòng)的次數(shù)及每次滾動(dòng)的間隔;④滾動(dòng)方式設(shè)置為:直接滾動(dòng)到底部;百度圖片采集-設(shè)置ajax滾動(dòng)完成上面的規(guī)則設(shè)置后,再對(duì)頁(yè)面中圖片的url進(jìn)行采集。3、瀑布流網(wǎng)站采集:只可點(diǎn)擊圖片進(jìn)入圖片詳情頁(yè),再采集圖片地址示例網(wǎng)站:花瓣網(wǎng)http://huaban.com/explore/huatong/此類(lèi)網(wǎng)站,具有以下兩個(gè)特征:頁(yè)面上的圖片不是一次加載完成,需要滾動(dòng)多次才會(huì)滾動(dòng)到底部;圖片詳情頁(yè)不能通過(guò)點(diǎn)擊標(biāo)題進(jìn)入,而需要點(diǎn)擊圖片才能進(jìn)入。針對(duì)這類(lèi)網(wǎng)站,
4、除了要對(duì)采集規(guī)則進(jìn)行Ajax滾動(dòng)設(shè)置外,還需要增加一個(gè)點(diǎn)擊“a標(biāo)簽”的步驟。如下圖設(shè)置Ajax滾動(dòng),此步驟與2相同,在此不再贅述。花瓣網(wǎng)圖片采集-設(shè)置ajax滾動(dòng)由于我們采集時(shí)需要點(diǎn)擊圖片,才能進(jìn)入到產(chǎn)品詳情頁(yè),在建立元素循環(huán)列表的時(shí)候,需要將圖片鏈接設(shè)置為列表項(xiàng)。點(diǎn)擊頁(yè)面內(nèi)的第一張圖片,再點(diǎn)擊“A標(biāo)簽”,系統(tǒng)會(huì)選中圖片的鏈接并發(fā)現(xiàn)同類(lèi)鏈接。選擇“選中全部”,再選擇“循環(huán)點(diǎn)擊每個(gè)鏈接”花瓣網(wǎng)圖片采集-點(diǎn)擊“A標(biāo)簽”一、學(xué)會(huì)使用圖片批量下載工具1、八爪魚(yú)圖片批量下載工具使用教程圖片批量下載工具:https://pan.baidu.
5、com/s/1c2n60NI1)下載八爪魚(yú)圖片批量下載工具,雙擊文件中的MyDownloader.app.exe文件,打開(kāi)軟件2)打開(kāi)File菜單,選擇從EXCEL導(dǎo)入(目前只支持EXCEL格式文件)3)進(jìn)行相關(guān)設(shè)置,設(shè)置完成后,點(diǎn)擊OK即可導(dǎo)入文件選擇EXCEL文件:導(dǎo)入你需要下載圖片地址的EXCEL文件EXCEL表名:對(duì)應(yīng)數(shù)據(jù)表的名稱(chēng)文件URL列名:表內(nèi)對(duì)應(yīng)URL的列名稱(chēng)保存文件夾名:EXCEL中需要單獨(dú)一個(gè)列,列出圖片想要保存到文件夾的路徑,可以設(shè)置不同圖片存放至不同文件夾如果要把文件保存到文件夾,則路徑需要以“”結(jié)尾,
6、例如:“D:同步”,如果要下載后按照指定的文件名保存,則需要包含具體的文件名,例如“D:同步1.jpg”如果下載的文件路徑和文件名完全一樣,則原先存在的文件會(huì)被刪除一、明確能夠/不能夠?qū)崿F(xiàn)的功能1、暫不支持直接采集圖片里的信息八爪魚(yú)暫不支持采集圖片里的信息,想要提取圖片中的信息,可以在將圖片下載下來(lái)后,使用網(wǎng)上的圖片信息提取工具進(jìn)行圖片信息的提取。2、圖片URL的兩種類(lèi)型圖片網(wǎng)站直接采集下來(lái)的圖片URL,分為兩種類(lèi)型:一種可以在瀏覽器中打開(kāi),也可以通過(guò)圖片批量下載工具,將URL轉(zhuǎn)化為圖片;一種可以在瀏覽器中打開(kāi),但是不可
7、以通過(guò)圖片批量下載工具,將其轉(zhuǎn)化為圖片。前一種,URL中會(huì)明確標(biāo)示出其圖片格式,常見(jiàn)的有:jpg、gif、png等。如下圖,百度圖片網(wǎng)直接采集下來(lái)的圖片URL中,包含的圖片格式為.jpg,屬于前一種。如下圖,花瓣網(wǎng)直接采集下來(lái)的圖片URL,沒(méi)有出現(xiàn)圖片格式,屬于后一種。遇到這種情況時(shí),我們需要進(jìn)行一些更復(fù)雜的操作,以找到可以轉(zhuǎn)換為圖片的URL,在此不做細(xì)說(shuō)。相關(guān)采集教程:京東商品信息采集豆瓣電影短評(píng)采集1688熱門(mén)商品采集八爪魚(yú)——70萬(wàn)用戶(hù)選擇的網(wǎng)頁(yè)數(shù)據(jù)采集器。1、操作簡(jiǎn)單,任何人都可以用:無(wú)需技術(shù)背景,會(huì)上網(wǎng)就能采集。完全可
8、視化流程,點(diǎn)擊鼠標(biāo)完成操作,2分鐘即可快速入門(mén)。2、功能強(qiáng)大,任何網(wǎng)站都可以采:對(duì)于點(diǎn)擊、登陸、翻頁(yè)、識(shí)別驗(yàn)證碼、瀑布流、Ajax腳本異步加載數(shù)據(jù)的網(wǎng)頁(yè),均可經(jīng)過(guò)簡(jiǎn)單設(shè)置進(jìn)行采集。3、云采集,關(guān)機(jī)也可以。配置好采集任務(wù)后可關(guān)機(jī),任務(wù)可在云端執(zhí)行。龐大云采集集群2