【正则表达式】([regular expression])

三种解析方式
1、re解析(正则表达式)
2、bs4解析
3、xpath解析

正则表达式
Regular Expression,一种使用表达式的方式对字符串进行匹配的语法规则
优点:速度快,效率高,准确性高
缺点:难度高

正则语法:使用元字符进行排列组合用来匹配字字符串,在线测试正则表达式:https://tool.oschina.net/regex/
元字符:具有固定含义的特殊字符
常用元字符:
.   匹配除换行符以外的任何字符
\w  匹配字母、数字或者下划线
\s  匹配任意的空白字符
\d  匹配数字
\n  匹配一个换行符
\t  匹配一个制表符

^   匹配字符串的开始
$   匹配字符串的结尾

\W  匹配非字母或下划线
\D  匹配非数字
\S  匹配非空白符
a|b 匹配字符a或者b
()  匹配括号内的表达式,也表示一个组
[...]   匹配字符组中的字符
[^...]  匹配除了字符组中字符的所有字符

量词:
(控制前面元字符出现的次数)
*   重复0次或更多次
+   重复1次或更多次
?   重复0次或一次
{n} 重复n次
{n.}    重复n次或更多次
{n,m}   重复n到m次

贪婪匹配和惰性匹配
.*  贪婪匹配
.*? 惰性匹配

写爬虫用的最多的就是惰性匹配
————————
三种解析方式
1、re解析(正则表达式)
2、bs4解析
3、xpath解析

正则表达式
Regular Expression,一种使用表达式的方式对字符串进行匹配的语法规则
优点:速度快,效率高,准确性高
缺点:难度高

正则语法:使用元字符进行排列组合用来匹配字字符串,在线测试正则表达式:https://tool.oschina.net/regex/
元字符:具有固定含义的特殊字符
常用元字符:
.   匹配除换行符以外的任何字符
\w  匹配字母、数字或者下划线
\s  匹配任意的空白字符
\d  匹配数字
\n  匹配一个换行符
\t  匹配一个制表符

^   匹配字符串的开始
$   匹配字符串的结尾

\W  匹配非字母或下划线
\D  匹配非数字
\S  匹配非空白符
a|b 匹配字符a或者b
()  匹配括号内的表达式,也表示一个组
[...]   匹配字符组中的字符
[^...]  匹配除了字符组中字符的所有字符

量词:
(控制前面元字符出现的次数)
*   重复0次或更多次
+   重复1次或更多次
?   重复0次或一次
{n} 重复n次
{n.}    重复n次或更多次
{n,m}   重复n到m次

贪婪匹配和惰性匹配
.*  贪婪匹配
.*? 惰性匹配

写爬虫用的最多的就是惰性匹配