国产睡熟迷奷白丝护士系列精品,中文色字幕网站,免费h网站在线观看的,亚洲开心激情在线

<sup id="hb9fh"></sup>

<mark id="godrr"><ol id="godrr"></ol></mark>

<legend id="godrr"></legend>

千鋒教育-做有情懷、有良心、有品質的職業(yè)教育機構

手機站

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻

千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

行業(yè)頭條

哈爾濱選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

哈密選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼和浩特選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼倫貝爾選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

吳忠選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呂梁選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

吉安選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

合肥選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

臺州選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

廈門選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

400-811-9990 全國咨詢熱線

首頁精品課程

Java

鴻蒙開發(fā)

HTML5

物聯(lián)網

云計算

Python

軟件測試

網絡安全

大數(shù)據

Unity

UI/UE設計

全媒體營銷

影視剪輯

游戲原畫

區(qū)塊鏈

產品經理

商業(yè)插畫

PMP認證

紅帽RHCE

軟考認證

華為認證

出國留學

安全認證

更多課程

免費教程
HTML5視頻教程 Java視頻教程 Python視頻教程 UI視頻教程云計算視頻教程軟件測試視頻教程大數(shù)據視頻教程物聯(lián)網視頻教程 Unity視頻教程網絡安全視頻教程全媒體視頻教程影視剪輯視頻教程
教研實力
教研院項目庫師資團隊項目大賽
校企服務
企業(yè)內訓高校合作學科共建
就業(yè)服務
就業(yè)服務雙選會上門招聘人才定制促就業(yè)行動
認證考試
PMP?培訓軟考培訓紅帽RHCE認證學歷提升
千鋒問問行業(yè)資訊技術干貨熱點話題
零基礎學IT IT培訓機構 IT面試題 IT就業(yè)前景
關于千鋒
千鋒簡介鋒益公益大賽組織品牌活動
聯(lián)系我們

當前位置：首頁 > 技術干貨 > re模塊在爬蟲中的應用

re模塊在爬蟲中的應用

來源：千鋒教育

發(fā)布人：qyf

時間： 2022-09-08 15:25:00 1662621900

　　接下來給大家分享一下常用的正則表達式抓取網絡數(shù)據的一些技巧。

　　抓取標簽間的內容

　　我們前幾篇文章給大家分享了urllib模塊和requests模塊是用來獲取網絡資源的兩個模塊，而我們獲取的網絡資源出了json的之外，都是跟HTML標簽打交道。我們往往要做的就是獲取標簽的內容。比如我們獲取一下百度的title標題：

　　import re

　　import requests

　　url = "http://www.baidu.com/"

　　response = requests.get(url)

　　response.encoding='utf-8'

　　content = response.text

　　# 此處使用findall結合正則表達式完成

　　title = re.findall(r'', content)

　　print(title[0])

　　抓取超鏈接標簽間的內容

　　import re

　　import requests

　　url = "http://www.baidu.com/"

　　response = requests.get(url)

　　response.encoding='utf-8'

　　content = response.text

　　# 定義正則表達式獲取所有網頁的超鏈接

　　res = r"<a.*?href=.*?<\ a="">"

　　urls = re.findall(res, content)

　　for u in urls:

　　print(u)

　　當然如果想獲取超鏈接中的內容我們也可以使用正則表達式，只不過使用了分組的內容就是()

　　import re

　　import requests

　　url = "http://www.baidu.com/"

　　response = requests.get(url)

　　response.encoding='utf-8'

　　content = response.text

　　#獲取超鏈接和之間內容

　　res = r'(.*?)'

　　texts = re.findall(res, content, re.S|re.M)

　　for t in texts:

　　print(t)

　　觀察結果：

　　抓取標簽中的參數(shù)

　　HTML超鏈接的基本格式為“鏈接內容”，現(xiàn)在需要獲取其中的URL鏈接地址，方法如下：

　　import re

　　import requests

　　url = "http://www.baidu.com/"

　　response = requests.get(url)

　　response.encoding='utf-8'

　　content = response.text

　　# 定義正則表達式獲取所有網頁的超鏈接

　　res = r"<a.*?href=.*?<\ a="">"

　　urls = re.findall(res, content)

　　# 將所有的超級鏈接拼接成字符串

　　all_urls = '\n'.join(urls)

　　# 定義正則表達式

　　res = r"(?<=href=)http:.+?(?=\>)|(?<=href=)http:.+?(?=\s)"

　　# 查找符合規(guī)則的超級鏈接

　　urls = re.findall(res, content, re.I|re.S|re.M)

　　for url in urls:

　　print(url)

　　抓取圖片超鏈接標簽的URL

　　HTML插入圖片使用標簽的基本格式為“”，則需要獲取圖片URL鏈接地址，下面???案例不僅獲取的圖片鏈接而且將圖片保存到了本地。

　　import re

　　import requests

　　# 從網絡獲取一張圖片的html標簽

QQ截圖20220908152641

　　# 使用正則表達式獲取src后面的內容

　　m = re.match(r'

　　print(m.group(1))

　　image_path = m.group(1)

　　# 如果想下載獲取的圖片鏈接我們結合requests和文件保存完成

　　response = requests.get(image_path)

　　# 獲取響應信息的內容

　　result = response.content

　　# 獲取圖片名稱

　　filename = image_path[image_path.rfind('%')+1:]

　　path = os.path.join(r'images', filename)

　　# 保存到本地將圖片

　　with open(path, 'wb') as wstream:

　　wstream.write(result)

　　print('文件下載結束!')

tags:

聲明：本站稿件版權均屬千鋒教育所有，未經許可不得擅自轉載。

10年以上業(yè)內強師集結，手把手帶你蛻變精英

請您保持通訊暢通，專屬學習老師24小時內將與您1V1溝通

免費領取

今日已有369人領取成功

劉同學 138****2860 剛剛成功領取

王同學 131****2015 剛剛成功領取

張同學 133****4652 剛剛成功領取

李同學 135****8607 剛剛成功領取

楊同學 132****5667 剛剛成功領取

岳同學 134****6652 剛剛成功領取

梁同學 157****2950 剛剛成功領取

劉同學 189****1015 剛剛成功領取

張同學 155****4678 剛剛成功領取

鄒同學 139****2907 剛剛成功領取

董同學 138****2867 剛剛成功領取

周同學 136****3602 剛剛成功領取

上一篇

re模塊方法介紹

下一篇

V8的垃圾回收機制是怎樣的

免費打包獲取

相關推薦HOT

軟件定制開發(fā)中的敏捷開發(fā)是什么?

軟件定制開發(fā)中的敏捷開發(fā)是什么軟件定制開發(fā)中的敏捷開發(fā)，從宏觀上看，是一個高度關注人員交互，持續(xù)開發(fā)與交付，接受需求變更并適應環(huán)境變化...詳情>>

2023-10-14 13:24:57

什么是PlatformIo?

PlatformIO是什么PlatformIO是一個全面的物聯(lián)網開發(fā)平臺，它為眾多硬件平臺和開發(fā)環(huán)境提供了統(tǒng)一的工作流程，有效簡化了開發(fā)過程，并能兼容各種...詳情>>

2023-10-14 12:55:06

云快照與自動備份有什么區(qū)別?

1、定義和目標不同云快照的主要目標是提供一種快速恢復數(shù)據的方法，它只記錄在快照時間點后的數(shù)據變化，而不是所有的數(shù)據。自動備份的主要目標...詳情>>

2023-10-14 12:48:59

服務器為什么要用Linux?

服務器為什么要用Linux作為服務器操作系統(tǒng)的優(yōu)選，Linux在眾多選擇中脫穎而出。Linux作為服務器操作系統(tǒng)的優(yōu)選，有其獨特的優(yōu)勢和特點。包括其...詳情>>

2023-10-14 12:34:11

ORM解決的主要問題是什么?

ORM（對象關系映射）解決的主要問題是將關系數(shù)據庫與面向對象編程之間的映射困境。在傳統(tǒng)的關系數(shù)據庫中，數(shù)據以表格的形式存儲，而在面向對象...詳情>>

2023-10-14 12:26:19

熱門推薦

什么項目適合使用Scrum?

scrum敏捷軟件開發(fā)是什么?

敏捷BI和傳統(tǒng)BI有什么區(qū)別?

敏捷開發(fā)實行中各崗位職能是什么?

敏捷開發(fā)在實際應用中有什么注意點?

軟件定制開發(fā)中的敏捷開發(fā)是什么?

三維重建 3D reconstruction有哪些實用算法?

樸素貝葉斯、決策樹、K 近鄰、SVM、邏輯回歸最大熵模型的應用場景是什么?

精確率、召回率、F1 值、ROC、AUC 各自的優(yōu)缺點是什么?

什么是TestOps測試運維?

技術干貨更多>>

如何實現(xiàn)服務器負載均衡

2023-12-06

linux有哪些優(yōu)勢和劣勢

2023-12-06

linux需要驅動嗎

2023-12-06

android與linux的區(qū)別

2023-12-06

如何搭建基于容器的深度學習環(huán)境

2023-12-06

職場就業(yè) 更多>>

網絡安全軟件開發(fā)的就業(yè)前景

2023-12-09

學會python工程師后的就業(yè)前景

2023-12-09

學會java工程師后的就業(yè)前景

2023-12-09

云計算技術就業(yè)前景以及發(fā)展方向怎樣？

2023-08-07

快速通道

培訓機構
了解培訓相關
就業(yè)前景
查看就業(yè)前景
培訓門檻
了解學習門檻
應聘面試
常見面試考題
就業(yè)服務
畢業(yè)推薦就業(yè)
師資團隊
了解師資團隊

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站