日韩中文免费码|午夜福利区免费久久|亚洲午夜在线观看首页|黑人巨大亚州宗合在线

<fieldset id="o2g8g"></fieldset>

<source id="o2g8g"></source>

<optgroup id="o2g8g"><strike id="o2g8g"></strike></optgroup>

武漢生活網(wǎng)

武漢新聞網(wǎng)

武漢在線

tags:

當(dāng)前位置 : 首頁 > 新聞中心 > 明星娛樂 > 正文

第3章男士請(qǐng)進(jìn)，女生勿看！！用Python爬取某網(wǎng)站小姐姐超好看圖片(三)

來源：本站作者：時(shí)間：2024-04-27 09:20:58點(diǎn)擊：

第3章男士請(qǐng)進(jìn)，女生勿看��！用Python爬取某網(wǎng)站小女孩姐超好看圖片(三)

本文是系列教程終極篇--【實(shí)戰(zhàn)開發(fā)】“爬取某網(wǎng)站小女孩姐超好看圖片（三）”歡迎查看系列教程文章！！

在這里，我們以爬取“不羞澀”網(wǎng)首頁的所有標(biāo)簽下的小女孩姐信息為例進(jìn)行說明講解，網(wǎng)址如下：http://www.buxiuse.com/?cid=3

我們需要爬取的信息內(nèi)容（一）有：不同標(biāo)簽名稱及地址，如下：

我們需要爬取的信息內(nèi)容（二）有：所有頁面網(wǎng)址，如下：

我們需要爬取的信息內(nèi)容（三）有：所有小女孩姐的封面圖片地址、標(biāo)題、收藏量、詳情鏈接地址，如下：

主要需求內(nèi)容就是上述這些，下面一起來分析及學(xué)習(xí)哈！

對(duì)于爬取所有分類標(biāo)簽與鏈接的信息，基本內(nèi)容如下圖所示，我們需要爬取的是所有、好X妹等標(biāo)簽名及鏈接信息，如下：

查看網(wǎng)頁源碼內(nèi)容，如下：

編寫獲取所有分類標(biāo)簽與鏈接的代碼內(nèi)容，參考如下：import requestsimport lxml.htmldef parse_girl_url(temp_url): headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36"} response = requests.get(temp_url,headers=headers) html_ret = response.content.decode("utf-8") return html_retdef catch_girl_title_list(temp_text): metree = lxml.html.etree parser = metree.HTML(temp_text,metree.HTMLParser()) li_list = parser.xpath("https://ul[@class='nav nav-pills']/li") # print("長度:",len(li_list)) temp_gilr_list = [] # 遍歷 for li_element in li_list: item = [] # 標(biāo)簽 title = li_element.xpath("https://zhuanlan.zhihu.com/p/a/@href")[0] item.append(title) # 鏈接地址 title_hrefurl = li_element.xpath("https://zhuanlan.zhihu.com/p/a/text()")[0] item.append(title_hrefurl) temp_gilr_list.append(item) return temp_gilr_listdef main(): # 解析網(wǎng)址 http_url = "http://www.buxiuse.com/?cid=3" girl_html_contnet = parse_girl_url(http_url) # print(girl_html_contnet) # 獲取數(shù)據(jù) girl_title_list = catch_girl_title_list(girl_html_contnet) print("結(jié)果:",girl_title_list)if __name__ == '__main__': main()

運(yùn)行結(jié)果如下：

下面一起來看看所有頁面網(wǎng)址的效果，我們來打開如下頁面查看下：http://www.buxiuse.com/

為了便于獲取頁面數(shù)據(jù)，此處暫時(shí)爬取4頁為例說明，網(wǎng)址規(guī)律效果如下：頁面數(shù)網(wǎng)址第1頁http://www.buxiuse.com/第2頁http://www.buxiuse.com/?page=2第3頁http://www.buxiuse.com/?page=3第4頁http://www.buxiuse.com/?page=4

觀察上述規(guī)律，可以分析第1頁的網(wǎng)址應(yīng)該為：http://www.buxiuse.com/?page=1

經(jīng)過分析處理，果然可以打開頁面內(nèi)容！再分析網(wǎng)址內(nèi)容，我們發(fā)現(xiàn)就是跟上述標(biāo)簽鏈接地址添加結(jié)尾內(nèi)容即可拼接成標(biāo)準(zhǔn)的網(wǎng)址，例如：http://www.buxiuse.com/ 拼接 ?page=3

下面我們?cè)僖黄饋砼廊∠马撁婢W(wǎng)址，代碼如下：for element in girl_title_list: # 拼接網(wǎng)址 index_url = element[0] # 4個(gè)頁面 page_url_list = [] for page in range(1,5): page_url = index_url+"?page="+str(page) page_url_list.append(page_url) # 添加到結(jié)尾處 element.append(page_url_list)# 所有網(wǎng)址print("所有頁面網(wǎng)址:",girl_title_list)

運(yùn)行效果：

接著，融入前面文章的（一）、（二）就可以形成完整的一個(gè)項(xiàng)目啦�。�！

【來關(guān)注“碼了個(gè)蛇”，持續(xù)更新Python、Android技術(shù)分享��！年輕小粉絲們有企圖學(xué)習(xí)編程者，私?聯(lián)系!】

[標(biāo)簽: ] [打印] [關(guān)閉]

上一篇：“開售即秒光”，怎么辦？

下一篇：返回列表

熱門新聞

董文華與賴昌聲浴照董文華紅樓陪了

橋本有菜中出到哭橋本有菜2017作品

水萊麗被虐的最慘一部水萊麗大便糞

鳴人和綱手的污圖綱手鳴人懲罰動(dòng)漫

田樸琤餃子是真做嗎 2017王石和田樸

00后王一彤絕版圖片王一彤未打碼照

周曉琳火腿大水蘿卜周曉琳27鵝卵石

08年張柏芝無刪圖片張柏芝未處理高

張柏芝艷原圖 2008滟照門禁所有照片

【圖】閆盼盼全套照片閆盼盼25套無

隨機(jī)新聞

白百何在跑男對(duì)陳羽凡下狠手原來早

2017大尺度韓劇排行最新大尺度韓劇

李一桐版黃蓉和早期港臺(tái)米雪陳玉蓮

橋本有菜中出到哭動(dòng)圖橋本有菜755

黑木明紗小栗旬偷情真假黑木明紗不

陳羽凡何時(shí)珍怎么認(rèn)識(shí)的陳羽凡何時(shí)

陳淑樺近況2017 陳淑樺為什么不結(jié)婚

唐禹哲新戀情曝光唐禹哲為什么被冷

王思聰關(guān)注趙麗穎了王思聰為啥對(duì)

演員陳數(shù)的身高陳數(shù)的個(gè)人資料和圖

圖文推薦

關(guān)于我們│用戶指南│版權(quán)聲明│招聘信息│聯(lián)系我們│網(wǎng)站導(dǎo)航
Copyright © 2016 mazyj.com All rights Reserved. 武漢生活網(wǎng) 版權(quán)所有
本站資訊均來自互聯(lián)網(wǎng)，并不代表本站立場，如發(fā)現(xiàn)本站有侵權(quán)等信息，請(qǐng)郵件告知，本站將在第一時(shí)間刪除信息。郵件至：123456@qq.com

<option id="wmg6k"></option>

<center id="wmg6k"></center>

<option id="wmg6k"><s id="wmg6k"></s></option><tfoot id="wmg6k"><button id="wmg6k"></button></tfoot>

<source id="wmg6k"><rt id="wmg6k"></rt></source>