Python爬蟲(chóng)之正則表達(dá)式基本用法實(shí)例分析
本文實(shí)例講述了Python爬蟲(chóng)之正則表達(dá)式基本用法。分享給大家供大家參考,具體如下:
一、簡(jiǎn)介
正則表達(dá)式,又稱正規(guī)表示式、正規(guī)表示法、正規(guī)表達(dá)式、規(guī)則表達(dá)式、常規(guī)表示法(英語(yǔ):Regular Expression,在代碼中常簡(jiǎn)寫(xiě)為regex、regexp或RE),計(jì)算機(jī)科學(xué)的一個(gè)概念。正則表達(dá)式使用單個(gè)字符串來(lái)描述、匹配一系列匹配某個(gè)句法規(guī)則的字符串。在很多文本編輯器里,正則表達(dá)式通常被用來(lái)檢索、替換那些匹配某個(gè)模式的文本。
compile 函數(shù)根據(jù)一個(gè)模式字符串和可選的標(biāo)志參數(shù)生成一個(gè)正則表達(dá)式對(duì)象。該對(duì)象擁有一系列方法用于正則表達(dá)式匹配和替換。
二、使用方法
1、簡(jiǎn)單看一下寫(xiě)法
函數(shù)語(yǔ)法:
re.match(pattern, string, flags=0)
函數(shù)參數(shù)說(shuō)明:
| 參數(shù) | 描述 |
|---|---|
| pattern | 匹配的正則表達(dá)式 |
| string | 要匹配的字符串。 |
| flags | 標(biāo)志位,用于控制正則表達(dá)式的匹配方式,如:是否區(qū)分大小寫(xiě),多行匹配等等。 |
匹配成功re.match方法返回一個(gè)匹配的對(duì)象,否則返回None。
我們可以使用group(num) 或 groups() 匹配對(duì)象函數(shù)來(lái)獲取匹配表達(dá)式。
| 匹配對(duì)象方法 | 描述 |
|---|---|
| group(num=0) | 匹配的整個(gè)表達(dá)式的字符串,group() 可以一次輸入多個(gè)組號(hào),在這種情況下它將返回一個(gè)包含那些組所對(duì)應(yīng)值的元組。 |
| groups() | 返回一個(gè)包含所有小組字符串的元組,從 1 到 所含的小組號(hào)。 |
import re
p = re.compile('abcd')
print(type(p))
#<class '_sre.SRE_Pattern'>
print(dir(p))
#['__class__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'findall', 'finditer', 'flags', 'fullmatch', 'groupindex', 'groups', 'match', 'pattern', 'scanner', 'search', 'split', 'sub', 'subn']
m = p.match('abcdef')
print(type(m))
#<class '_sre.SRE_Match'>
print(dir(m))
#['__class__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'end', 'endpos', 'expand', 'group', 'groupdict', 'groups', 'lastgroup', 'lastindex', 'pos', 're', 'regs', 'span', 'start', 'string']
print(m.group())
#abcd
print(m.group(0))
#abcd
re.match()方法值匹配字符串的開(kāi)頭如果不滿足,就返回一個(gè)None
import re
p = re.compile('abcd')
m = p.match('abdcef')
print(m.group())
#AttributeError: 'NoneType' object has no attribute 'group'
神奇的.
import re
p = re.compile('.')
m = p.match('abdcef')
print(m.group())
#a
特殊字符(元字符)
注意:\在里面是轉(zhuǎn)義詞的意思,例如,你想匹配一個(gè)re.compile('.'),這個(gè).是匹配任意字符。但是我就想讓它匹配一個(gè).怎么辦,re.compile('\.'),這樣的話它就真的只匹配一個(gè)點(diǎn)。
re.findall()
import re
p = re.compile('\.')
#匹配符號(hào)點(diǎn)(注意這里可前面加上了轉(zhuǎn)義符\,就不是匹配任意字符了)
m = p.findall('abc.def.')
print(type(m))
#<class 'list'>
print(m)
#['.', '.']
#可以得出,返回的是一個(gè)list,全局查找,不想match方法只匹配字符串開(kāi)頭
數(shù)量詞:
貪婪模式和非貪婪模式
1、一個(gè)小例子
我們知道*表示匹配一個(gè)字符串0次或者多次,而+是匹配字符串1次或多次,所以*的時(shí)候匹配了0次也打印出來(lái)了,而+只找匹配1次的字符。
import re
p = re.compile('[abc]+')
m = p.findall('abcdef')
print(m)
#*
#['abc', '', '', '', '']
#+
#['abc']
貪婪與非貪婪模式影響的是被量詞修飾的子表達(dá)式的匹配行為,貪婪模式在整個(gè)表達(dá)式匹配成功的前提下,盡可能多的匹配.
而非貪婪模式在整個(gè)表達(dá)式匹配成功的前提下,盡可能少的匹配。
2、{}
根據(jù)下面的例子不難看出,數(shù)量詞{m}表示的是匹配前面字符串的幾個(gè)字符串
import re
p = re.compile('[abc]{3}')
m = p.findall('abcdabcd')
print(m)
#{1}
#['a', 'b', 'c', 'a', 'b', 'c']
#{2}
#['ab', 'ab']
#{3}
#['abc', 'abc']
re.search方法
re.search 掃描整個(gè)字符串并返回第一個(gè)成功的匹配,否則返回的是None(注意findall返回的是list,而search返回的直接就是字符串)
import re
p = re.compile('abcd')
m = p.search('abcdabcd')
print(m.group())
檢索和替換
Python 的 re 模塊提供了re.sub用于替換字符串中的匹配項(xiàng)。
語(yǔ)法:
re.sub(pattern, repl, string, count=0, flags=0)
參數(shù):
- pattern : 正則中的模式字符串。
- repl : 替換的字符串,也可為一個(gè)函數(shù)。
- string : 要被查找替換的原始字符串。
- count : 模式匹配后替換的最大次數(shù),默認(rèn) 0 表示替換所有的匹配。
示例一:
替換一#開(kāi)頭的所有字符(匹配任意字符0次或者多次),替換成無(wú)。
import re
phone = "2004-959-559 # 這是一個(gè)國(guó)外電話號(hào)碼"
num = re.sub('#.*','',phone)
print(num)
示例一:擴(kuò)展
找到所有非數(shù)字的字符,‘'代表著刪除。
import re
phone = "2004-959-559 # 這是一個(gè)國(guó)外電話號(hào)碼"
num = re.sub('\D','',phone)
print(num)
正則表達(dá)式修飾符 - 可選標(biāo)志
正則表達(dá)式可以包含一些可選標(biāo)志修飾符來(lái)控制匹配的模式。修飾符被指定為一個(gè)可選的標(biāo)志。多個(gè)標(biāo)志可以通過(guò)按位 OR(|) 它們來(lái)指定。如 re.I | re.M 被設(shè)置成 I 和 M 標(biāo)志:
PS:這里再為大家提供2款非常方便的正則表達(dá)式工具供大家參考使用:
JavaScript正則表達(dá)式在線測(cè)試工具:
http://tools.jb51.net/regex/javascript
正則表達(dá)式在線生成工具:
http://tools.jb51.net/regex/create_reg
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門(mén)與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。
上一篇:使用正則表達(dá)式去除所有html標(biāo)簽只保留文字
欄 目:正則表達(dá)式
下一篇:詳解正則表達(dá)式實(shí)現(xiàn)二代身份證號(hào)碼驗(yàn)證
本文標(biāo)題:Python爬蟲(chóng)之正則表達(dá)式基本用法實(shí)例分析
本文地址:http://www.jygsgssxh.com/a1/zhengzebiaodashi/11224.html
您可能感興趣的文章
- 01-11python 用正則表達(dá)式篩選文本信息的實(shí)例
- 01-11正則表達(dá)式之匹配數(shù)字范圍
- 01-11python爬蟲(chóng)正則表達(dá)式之處理?yè)Q行符
- 01-11python正則表達(dá)式之對(duì)號(hào)入座篇
- 01-11Python正則表達(dá)式中的re.S的作用詳解
- 01-11詳解Python中的正則表達(dá)式
- 01-11Python實(shí)現(xiàn)正則表達(dá)式匹配任意的郵箱方法
- 01-11一篇文章搞懂JavaScript正則表達(dá)式之方法
- 01-11淺談Python采集網(wǎng)頁(yè)時(shí)正則表達(dá)式匹配換行符的問(wèn)題
- 01-11JS正則表達(dá)式獲取指定字符之后指定字符之前的字符串(推薦)


閱讀排行
- 1C語(yǔ)言 while語(yǔ)句的用法詳解
- 2java 實(shí)現(xiàn)簡(jiǎn)單圣誕樹(shù)的示例代碼(圣誕
- 3利用C語(yǔ)言實(shí)現(xiàn)“百馬百擔(dān)”問(wèn)題方法
- 4C語(yǔ)言中計(jì)算正弦的相關(guān)函數(shù)總結(jié)
- 5c語(yǔ)言計(jì)算三角形面積代碼
- 6什么是 WSH(腳本宿主)的詳細(xì)解釋
- 7C++ 中隨機(jī)函數(shù)random函數(shù)的使用方法
- 8正則表達(dá)式匹配各種特殊字符
- 9C語(yǔ)言十進(jìn)制轉(zhuǎn)二進(jìn)制代碼實(shí)例
- 10C語(yǔ)言查找數(shù)組里數(shù)字重復(fù)次數(shù)的方法
本欄相關(guān)
- 01-11正則表達(dá)式實(shí)現(xiàn)添加、刪除、替換三
- 01-11正則表達(dá)式之匹配數(shù)字范圍
- 01-11python 用正則表達(dá)式篩選文本信息的實(shí)
- 01-11正則表達(dá)式匹配路由的實(shí)現(xiàn)代碼
- 01-11python爬蟲(chóng)正則表達(dá)式之處理?yè)Q行符
- 01-11js正則表達(dá)式 匹配兩個(gè)特定字符間的
- 01-11正則表達(dá)式截取身份證號(hào)碼加密的方
- 01-11python正則表達(dá)式之對(duì)號(hào)入座篇
- 01-11MySQL使用正則表達(dá)式進(jìn)行查詢操作經(jīng)典
- 01-11詳解正則表達(dá)式實(shí)現(xiàn)二代身份證號(hào)碼
隨機(jī)閱讀
- 01-11ajax實(shí)現(xiàn)頁(yè)面的局部加載
- 01-10SublimeText編譯C開(kāi)發(fā)環(huán)境設(shè)置
- 08-05織夢(mèng)dedecms什么時(shí)候用欄目交叉功能?
- 08-05dedecms(織夢(mèng))副欄目數(shù)量限制代碼修改
- 01-10使用C語(yǔ)言求解撲克牌的順子及n個(gè)骰子
- 01-11Mac OSX 打開(kāi)原生自帶讀寫(xiě)NTFS功能(圖文
- 08-05DEDE織夢(mèng)data目錄下的sessions文件夾有什
- 01-10C#中split用法實(shí)例總結(jié)
- 04-02jquery與jsp,用jquery
- 01-10delphi制作wav文件的方法


