国产睡熟迷奷白丝护士系列精品,中文色字幕网站,免费h网站在线观看的,亚洲开心激情在线

<sup id="hb9fh"></sup>

<legend id="d9wnw"></legend>

<style id="d9wnw"><u id="d9wnw"><thead id="d9wnw"></thead></u></style>

千鋒教育-做有情懷、有良心、有品質的職業(yè)教育機構

手機站

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻

千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

行業(yè)頭條

哈爾濱選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

哈密選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼和浩特選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼倫貝爾選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

吳忠選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呂梁選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

吉安選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

合肥選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

臺州選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

廈門選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

400-811-9990 全國咨詢熱線

首頁精品課程

Java

鴻蒙開發(fā)

HTML5

物聯(lián)網(wǎng)

云計算

Python

軟件測試

網(wǎng)絡安全

大數(shù)據(jù)

Unity

UI/UE設計

全媒體營銷

影視剪輯

游戲原畫

區(qū)塊鏈

產(chǎn)品經(jīng)理

商業(yè)插畫

PMP認證

紅帽RHCE

軟考認證

華為認證

出國留學

安全認證

更多課程

免費教程
HTML5視頻教程 Java視頻教程 Python視頻教程 UI視頻教程云計算視頻教程軟件測試視頻教程大數(shù)據(jù)視頻教程物聯(lián)網(wǎng)視頻教程 Unity視頻教程網(wǎng)絡安全視頻教程全媒體視頻教程影視剪輯視頻教程
教研實力
教研院項目庫師資團隊項目大賽
校企服務
企業(yè)內訓高校合作學科共建
就業(yè)服務
就業(yè)服務雙選會上門招聘人才定制促就業(yè)行動
認證考試
PMP?培訓軟考培訓紅帽RHCE認證學歷提升
千鋒問問行業(yè)資訊技術干貨熱點話題
零基礎學IT IT培訓機構 IT面試題 IT就業(yè)前景
關于千鋒
千鋒簡介鋒益公益大賽組織品牌活動
聯(lián)系我們

當前位置：首頁 > 技術干貨 > 20天學會爬蟲之Scrapy框架Spider類（案例：披荊斬棘的哥哥）

20天學會爬蟲之Scrapy框架Spider類（案例：披荊斬棘的哥哥）

來源：千鋒教育

發(fā)布人：qyf

時間： 2022-09-19 17:59:40 1663581580

　　Spider是什么?

　　• Spider是一個Scrapy提供的基本類，Scrapy中包含的其他基本類(例如CrawlSpider)以及自定義的spider都必須繼承這個類。

　　• Spider是定義如何抓取某個網(wǎng)站的類，包括如何執(zhí)行抓取以及如何從其網(wǎng)頁中提取結構化數(shù)據(jù)。

　　源碼如下：

　　所有爬蟲的基類，用戶定義的爬蟲必須從這個類繼承

　　class Spider(object_ref):

　　#name是spider最重要的屬性，而且是必須的。一般做法是以該網(wǎng)站(domain)(加或不加后綴 )來命名spider。例如，如果spider爬取 mywebsite.com ，該spider通常會被命名為 mywebsite

　　name = None

　　#初始化，提取爬蟲名字，start_ruls

　　def __init__(self, name=None, **kwargs):

　　#判斷是否存在爬蟲名字name，沒有則會報錯

　　if name is not None:

　　self.name = name

　　elif not getattr(self, 'name', None):

　　raise ValueError("%s must have a name" % type(self).__name__)

　　# python對象或類型通過內置成員__dict__來存儲成員信息

　　self.__dict__.update(kwargs)

　　#判斷是否存在start_urls列表，從列表中獲取到頁面的URL開始請求，后續(xù)的URL將會從獲取到的數(shù)據(jù)中提取。

　　if not hasattr(self, 'start_urls'):

　　self.start_urls = []

　　# Scrapy執(zhí)行后的日志信息

　　def log(self, message, level=log.DEBUG, **kw):

　　log.msg(message, spider=self, level=level, **kw)

　　# 判斷對象object的屬性是否存在，不存在則做斷言處理

　　def set_crawler(self, crawler):

　　assert not hasattr(self, '_crawler'), "Spider already bounded to %s" % crawler

　　self._crawler = crawler

　　@property

　　def crawler(self):

　　assert hasattr(self, '_crawler'), "Spider not bounded to any crawler"

　　return self._crawler

　　@property

　　def settings(self):

　　return self.crawler.settings

　　#該方法將讀取start_urls內的地址，并為每一個地址生成一個Request對象，交給Scrapy下載并返回Response

　　#注意：該方法僅調用一次

　　def start_requests(self):

　　for url in self.start_urls:

　　# 生成Request對象的函數(shù)

　　yield self.make_requests_from_url(url)

　　#Request對象默認的回調函數(shù)為parse()，提交的方式為get

　　def make_requests_from_url(self, url):

　　return Request(url, dont_filter=True)

　　#默認的Request對象回調函數(shù)，處理返回的response。

　　#生成Item或者Request對象。用戶需要自己重寫該方法中的內容

　　def parse(self, response):

　　raise NotImplementedError

　　@classmethod

　　def handles_request(cls, request):

　　return url_is_from_spider(request.url, cls)

　　def __str__(self):

　　return "<%s %r at 0x%0x>" % (type(self).__name__, self.name, id(self))

　　__repr__ = __str__

　　因此可以總結出Scrapy爬取數(shù)據(jù)的過程如下：

　　Spider的入口方法(start_requests())請求start_urls列表中定義的url，返回Request對象(同時默認傳給它一個名為parse的回調函數(shù))。

　　下載器獲取Respose后，回調函數(shù)會解析Reponse，返回(yield)的結果可能是字典、Item或是Request對象，亦或是這些對象組成的可迭代類型。其中，返回的Request也會包含一個回調函數(shù)，并在被下載之后被回調函數(shù)處理(即重復第2步)。

　　解析數(shù)據(jù)可以使用Scrapy自帶的Selectors工具或者lxml、BeautifulSoup等模塊。

　　最后Scrapy將返回的數(shù)據(jù)字典(或是Item對象)保存為文件或者保存在數(shù)據(jù)庫中。

　　scrapy.spider.Spider類介紹

　　常用類屬性

　　• name：是字符串。標識了每一個spider的名字，必須定義且唯一。實際中我們一般為每個獨立網(wǎng)站創(chuàng)建一個spider。

　　• starturl：是包含初始請求頁面url的列表，必須定義。`startrequests()方法會引用該屬性，發(fā)出初始的Request`。

　　• custom_settings：是一個字典，每一條鍵值對表示一個配置，可用于覆寫SETTINGS(Scrapy的全局配置模塊，位于settings.py文件中)。

　　•

　　– 例1：custom_settings = {'COOKIES_ENABLED': True,'ROBOTSTXT_OBEY': False}。覆蓋了全局屬性COOKIES_ENABLED。

　　– 擴展：設置settings中的值的幾種方法，優(yōu)先級從高到低如下：

　　命令行選項

　　custom_settings

　　settings.py文件

　　命令行的默認設置，每一個命令行都有它自己的默認設置

　　默認的全局設置，被定義在 scrapy.settings.default_settings 中

　　• allowed_domains：是一個字符串列表。規(guī)定了允許爬取的網(wǎng)站域名，非域名下的網(wǎng)頁將被自動過濾。

　　•

　　– 例1：allowed_domains = cnblogs.com，start_url = 'https://www.zhihu.com'。在這個例子中，知乎不屬于CSDN的域名，因此爬取過程中會被過濾。

　　• crawler：是一個Crawler對象?？梢酝ㄟ^它訪問Scrapy的一些組件(例如：extensions, middlewares, settings)。

　　•

　　– 例1：spider.crawler.settings.getbool('xxx')。這個例子中我們通過crawler訪問到了全局屬性。

　　• settings：是一個Settings對象。它包含運行中時的Spider的配置。這和我們使用spider.crawler.settings訪問是一樣的。

　　• logger：是一個Logger對象。根據(jù)Spider的name創(chuàng)建的，它記錄了事件日志。

　　常用方法

　　• start_requests：該方法是Spider的入口方法。默認下，該方法會請求start_url中定義的url，返回對應的Request，如果該方法被重寫，可以返回包含Request(作為第一個請求)的可迭代對象或者是FormRequest對象，一般POST請求重寫該方法。

　　• parse：當其他的Request沒有指定回調函數(shù)時，用于處理下載響應的默認回調，主要作用：負責解析返回的網(wǎng)頁數(shù)據(jù)(response.body)，提取結構化數(shù)據(jù)(生成item)生成需要下一頁的URL請求。。該方法用于編寫解析網(wǎng)頁的具體邏輯(包含解析數(shù)據(jù)，或是解析出新的頁面)，所以此方法非常重要哦!。

　　Spider案例:披荊斬棘的哥哥評論

　　最近被披荊斬棘的哥哥所吸引，但是還是要為大家做好服務，每天更新文章啊!介紹下這個綜藝節(jié)目哈。

　　《披荊斬棘的哥哥》是芒果TV推出的全景音樂競演綜藝。節(jié)目嘉賓們彼此挑戰(zhàn)，披荊斬棘，通過男人之間的彼此探索、家族建立的進程，詮釋“滾燙的人生永遠發(fā)光”，見證永不隕落的精神力。

　　我們本次使用Scrapy爬取哥哥們的評論。

　　分析思路：

　　打開谷歌瀏覽器，訪問第01期的鏈接(https://www.mgtv.com/b/367750/13107580.html)，把JavaScript加載關掉，刷新，發(fā)現(xiàn)底下的評論數(shù)據(jù)沒有了，說明這數(shù)據(jù)是異步加載的，在這個網(wǎng)頁鏈接的源代碼里是找不到評論數(shù)據(jù)的;

　　既然是異步加載，那么就要抓包了。把剛剛關掉的JavaScript打開，重新加載網(wǎng)頁，右鍵檢查，Network，數(shù)據(jù)一般都在XHR或者JS里面，所以先把這兩項勾選了，這時候點擊評論的下一頁，發(fā)現(xiàn)數(shù)據(jù)就在JS里面：

Picture(1)

Picture(2)

　　由上面評論的真實鏈接可以知道，評論真實的請求網(wǎng)址是：“https://comment.mgtv.com/v4/comment/getCommentList?”，后面跟著一系列的參數(shù)(callback, _support, subjectType, subjectId, page, _)，可見：

Picture(3)

　　我們知道page是頁碼數(shù)，subjectId是s每個視頻對應的id，callback回調函數(shù)，最后一個大膽猜測下就是unix時間戳后面再加上3位隨機數(shù)(或者unix時間戳乘以1000再取整)，應該只起一個占位的作用，可能是一個完全沒用的參數(shù)，只是用來嚇唬我們的。

　　但是不確定，我們來看一下，于是我去掉最后一個參數(shù)在瀏覽器發(fā)出了一下請求，結果如下：

Picture(4)

　　說明就是一個完全沒用的參數(shù)，哈哈哈用來嚇唬我們的，不要怕!我們不用它。

　　鏈接有了之后我們就開始創(chuàng)建爬蟲項目啦!

　　首先打開命令行，輸入:

　　scrapy startproject mongotv_comments_crawler

　　生成新的mongotvcommentscrawler項目，再輸入：

　　cd mongotv_comments_crawler

　　scrapy genspider mgtv_crawl mgtv.com

　　生成爬蟲名。

　　然后，用PyCharm打開項目。由于最后爬取到的是json數(shù)據(jù)，我們直接解析Json數(shù)據(jù)，并返回到Items中。

　　因此在爬蟲文件mgtv_crawl.py的MgtvCrawlSpider類中，進行如下定義：

　　class MgtvCrawlSpider(scrapy.Spider):

　　name = 'mgtv_crawl'

　　allowed_domains = ['mgtv.com']

　　# start_urls = ['http://mgtv.com/'] 因為我們每次都需要構建芒果TV的請求，所以我們重寫start_requests方法

　　subject_id = 4327535 # 視頻的id

　　pages = list(range(1, 100)) # 需要爬取的評論頁數(shù)比如100頁

　　因為我們要爬取多頁的內容，所以我們要不斷修改page參數(shù)，所以我們重寫start_requests方法

　　def start_requests(self): # 重寫start_requests

　　start_urls = [f'https://comment.mgtv.com/v4/comment/getCommentList?page={page}&subjectType=hunantv2014&subjectId={self.subject_id}&callback=jQuery18204988030991528978_1630030396693&_support=10000000&_=1630030399968' for page in self.pages]

　　# 生成所有需要爬取的url保存進start_urls

　　for url in start_urls: # 遍歷start_urls發(fā)出請求

　　yield Request(url)

　　然后重寫parse()函數(shù)，獲取json結果。但是json結果前面有下圖一樣的前綴內容，我們要去掉

Picture(5)

　　def parse(self, response):

　　text = response.text[response.text.find('{'):-1] # 通過字符串選取的方式把"jQuery...()去掉"

　　json_data = json.loads(text) # 轉換成json格式

　　for i in json_data['data']['list']: # 遍歷每頁的評論列表

　　item = MongotvCommentsCrawlerItem()

　　item['content'] = i['content']

　　item['commentId'] = i['commentId']

　　item['createTime'] = i['createTime']

　　item['nickName'] = i['user']['nickName']

　　yield item

　　編寫item，獲取評論的：內容、創(chuàng)建時間、用戶名和評論ID

　　class MongotvCommentsCrawlerItem(scrapy.Item):

　　# define the fields for your item here like:

　　# name = scrapy.Field()

　　content = scrapy.Field()

　　createTime = scrapy.Field()

　　nickName = scrapy.Field()

　　commentId = scrapy.Field()

　　然后便是寫pipelines.py文件，把爬取回來的items入庫

　　import pymysql

　　class MongotvCommentsCrawlerPipeline(object):

　　def __init__(self):

　　self.conn = pymysql.connect(host='127.0.0.1', user='root', password='root',

　　db='mgtv', charset='utf8')

　　def process_item(self, item, spider):

　　commentId = item["commentId"]

　　content = item['content']

　　createTime = item['createTime']

　　nickName = item["nickName"]

　　sql = "insert into comments(commentId,content,createTime,nickName) values(" + str(commentId) + ",'" + content + "','" + createTime + "','" + nickName + "');"

　　self.conn.query(sql)

　　self.conn.commit()

　　return item

　　def close_spider(self, spider):

　　self.conn.close()

　　在settings.py中開啟對應的設置項：

Picture(6)

Picture(7)

Picture(8)

　　開啟爬蟲進行爬取：

　　scrapy crawl mgtv_crawl

　　爬取到的結果如下：

Picture(9)

tags:

聲明：本站稿件版權均屬千鋒教育所有，未經(jīng)許可不得擅自轉載。

10年以上業(yè)內強師集結，手把手帶你蛻變精英

請您保持通訊暢通，專屬學習老師24小時內將與您1V1溝通

免費領取

今日已有369人領取成功

劉同學 138****2860 剛剛成功領取

王同學 131****2015 剛剛成功領取

張同學 133****4652 剛剛成功領取

李同學 135****8607 剛剛成功領取

楊同學 132****5667 剛剛成功領取

岳同學 134****6652 剛剛成功領取

梁同學 157****2950 剛剛成功領取

劉同學 189****1015 剛剛成功領取

張同學 155****4678 剛剛成功領取

鄒同學 139****2907 剛剛成功領取

董同學 138****2867 剛剛成功領取

周同學 136****3602 剛剛成功領取

上一篇

Scrapy框架使用之Spider+Item+Pipline的簡單使用

下一篇

一個快速的Vue3無限滾動組件

免費打包獲取

相關推薦HOT

Visual Studio Online和GitHub有什么區(qū)別?

1.定位不同Visual Studio Online，現(xiàn)更名為Visual Studio Codespaces，是微軟提供的一款在線開發(fā)環(huán)境，允許開發(fā)者在云端進行編程和調試工作。而...詳情>>

2023-10-15 00:21:42

什么是域控制器?

一、域控制器的定義域控制器是指在Windows Server操作系統(tǒng)中部署Active Directory服務的服務器。Active Directory是微軟公司開發(fā)的目錄服務，用...詳情>>

2023-10-15 00:10:28

深度學習模型權重h5、weights、ckpt、pth有什么區(qū)別?

1.來源框架不同h5格式通常用于Keras和TensorFlow框架，weights用于Darknet框架，ckpt是TensorFlow框架的一種格式，而pth則主要用于PyTorch框架...詳情>>

2023-10-15 00:05:17

大數(shù)據(jù)測試工程師需要具備哪些技能?

一、理解大數(shù)據(jù)概念大數(shù)據(jù)測試工程師需要理解大數(shù)據(jù)的基本概念和原理，如分布式存儲、MapReduce、實時計算等。他們還需要了解如何處理大規(guī)模的...詳情>>

2023-10-14 23:43:03

為什么SpringBoot的 jar 可以直接運行?

一、JAR文件的結構與執(zhí)行方式Spring Boot的JAR包是Java Archive的縮寫，它是一種壓縮文件格式，可以將Java項目的類文件、資源文件以及依賴庫等...詳情>>

2023-10-14 23:01:49

熱門推薦

Visual Studio Online和GitHub有什么區(qū)別?

計算機視覺中所指的深度和深度學習中的深度有什么區(qū)別?

顯著性目標檢測和一般目標檢測最本質的區(qū)別是什么區(qū)別?

在目標檢測里single-shot和multi-shot的主要區(qū)別是什么?

APP安全測試與普通B/S架構的滲透測試有什么區(qū)別?

什么是域控制器?

圖卷積網(wǎng)絡和self-attention有什么區(qū)別?

深度學習模型權重h5、weights、ckpt、pth有什么區(qū)別?

機器學習中Inference和predict的區(qū)別是什么?

kd-tree和ball-tree在算法實現(xiàn)原理上有什么區(qū)別?

技術干貨更多>>

如何實現(xiàn)服務器負載均衡

2023-12-06

linux有哪些優(yōu)勢和劣勢

2023-12-06

linux需要驅動嗎

2023-12-06

android與linux的區(qū)別

2023-12-06

如何搭建基于容器的深度學習環(huán)境

2023-12-06

職場就業(yè) 更多>>

網(wǎng)絡安全軟件開發(fā)的就業(yè)前景

2023-12-09

學會python工程師后的就業(yè)前景

2023-12-09

學會java工程師后的就業(yè)前景

2023-12-09

云計算技術就業(yè)前景以及發(fā)展方向怎樣？

2023-08-07

快速通道

培訓機構
了解培訓相關
就業(yè)前景
查看就業(yè)前景
培訓門檻
了解學習門檻
應聘面試
常見面試考題
就業(yè)服務
畢業(yè)推薦就業(yè)
師資團隊
了解師資團隊

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站