影视国产日本免费,亚洲AV无码二区一区二十六区

PYTHON爬蟲——必應圖片關鍵詞爬取

2018-8-31 seo達人

如果您想訂閱本博客內(nèi)容，每天自動發(fā)到您的郵箱中， 請點這里

圖片三個網(wǎng)站的圖片搜索結(jié)果進行爬取和下載。
首先通過爬蟲過程中遇到的問題，總結(jié)如下：
1、一次頁面加載的圖片數(shù)量各個網(wǎng)站是不定的，每翻一頁就會刷新一次，對于數(shù)據(jù)量大的爬蟲幾乎都需要用到翻頁功能，有如下兩種方式：
1）通過網(wǎng)站上的網(wǎng)址進行刷新，例如必應圖片：

url = 'http://cn.bing.com/images/async?q={0}&first={1}&count=35&relp=35&lostate=r &mmasync=1&dgState=x*175_y*848_h*199_c*1_i*106_r*0'

1

2

2）通過selenium來實現(xiàn)模擬鼠標操作來進行翻頁，這一點會在Google圖片爬取的時候進行講解。
2、每個網(wǎng)站應用的圖片加載技術都不一樣，對于靜態(tài)加載的網(wǎng)站爬取圖片非常容易，因為每張圖片的url都直接顯示在網(wǎng)頁源碼中，找到每張圖片對應的url即可使用urlretrieve()進行下載。然而對于動態(tài)加載的網(wǎng)站就比較復雜，需要具體問題具體分析，例如google圖片每次就會加載35張圖片（只能得到35張圖片的url），當滾動一次后網(wǎng)頁并不刷新但是會再次加載一批圖片，與前面加載完成的都一起顯示在網(wǎng)頁源碼中。對于動態(tài)加載的網(wǎng)站我推薦使用selenium庫來爬取。

對于爬取圖片的流程基本如下（對于可以通過網(wǎng)址實現(xiàn)翻頁或者無需翻頁的網(wǎng)站）：
1. 找到你需要爬取圖片的網(wǎng)站。（以必應為例）

2. 使用google元素檢查（其他的沒用過不做介紹）來查看網(wǎng)頁源碼。

3. 使用左上角的元素檢查來找到對應圖片的代碼。

4. 通過觀察找到翻頁的規(guī)律（有些網(wǎng)站的動態(tài)加載是完全看不出來的，這種方法不推薦）

從圖中可以看到標簽div，class=’dgControl hover’中的data-nexturl的內(nèi)容隨著我們滾動頁面翻頁first會一直改變，q=二進制碼即我們關鍵字的二進制表示形式。加上前綴之后由此我們才得到了我們要用的url。
5. 我們將網(wǎng)頁的源碼放進BeautifulSoup中，代碼如下：

url = 'http://cn.bing.com/images/async?q={0}&first={1}&count=35&relp=35&lostate=r&mmasync=1&dgState=x*175_y*848_h*199_c*1_i*106_r*0' agent = {'User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.165063 Safari/537.36 AppEngine-Google."} page1 = urllib.request.Request(url.format(InputData, i*35+1), headers=agent) page = urllib.request.urlopen(page1) soup = BeautifulSoup(page.read(), 'html.parser')

1

2

3

4

5

我們得到的soup是一個class ‘bs4.BeautifulSoup’對象，可以直接對其進行操作，具體內(nèi)容自行查找。
首先選取我們需要的url所在的class，如下圖：

波浪線是我們需要的url。
我們由下面的代碼得到我們需要的url：

if not os.path.exists("./" + word):#創(chuàng)建文件夾 os.mkdir('./' + word) for StepOne in soup.select('.mimg'): link=StepOne.attrs['src']#將得到的<class 'bs4.element.Tag'>轉(zhuǎn)化為字典形式并取src對應的value。 count = len(os.listdir('./' + word)) + 1 SaveImage(link,word,count)#調(diào)用函數(shù)保存得到的圖片。

1

2

3

4

5

6

7

最后調(diào)用urlretrieve（）函數(shù)下載我們得到的圖片url，代碼如下：

try: time.sleep(0.2) urllib.request.urlretrieve(link,'./'+InputData+'/'+str(count)+'.jpg') except urllib.error.HTTPError as urllib_err: print(urllib_err) except Exception as err: time.sleep(1) print(err) print("產(chǎn)生未知錯誤，放棄保存") else: print("圖+1,已有" + str(count) + "張圖")

1

2

3

4

5

6

7

8

9

10

11

這里需要強調(diào)是像前面的打開網(wǎng)址和現(xiàn)在的下載圖片都需要使用try except進行錯誤測試，否則出錯時程序很容易崩潰，大大浪費了數(shù)據(jù)采集的時間。
以上就是對單個頁面進行數(shù)據(jù)采集的流程，緊接著改變url中｛1｝進行翻頁操作繼續(xù)采集下一頁。
數(shù)據(jù)采集結(jié)果如下：

有問題請留言。
藍藍設計( sillybuy.com )是一家專注而深入的界面設計公司，為期望卓越的國內(nèi)外企業(yè)提供卓越的UI界面設計、BS界面設計 、 cs界面設計 、 ipad界面設計 、 包裝設計 、 圖標定制 、 用戶體驗、交互設計、 網(wǎng)站建設 、平面設計服務。

« 2017【百度Doodle 設計盤點】中秋節(jié) 3個步驟，讓你把握設計切入點 »

PYTHON爬蟲——必應圖片關鍵詞爬取

分類

日歷

鏈接

個人資料

存檔