Python 正则表达式入门（初级篇）

2020-02-23 04:09:53

字体：大中小

来源：转载

供稿：网友

引子

首先说正则表达式是什么？

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件（例如sed和grep）普及开的。正则表达式通常缩写成“regex”，单数有regexp、regex，复数有regexps、regexes、regexen。

引用自维基百科https://zh.wikipedia.org/wiki/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F

定义是定义，太正经了就没法用了。我们来举个栗子：假如你在写一个爬虫，你得到了

一个网页的HTML源码。其中有一段

<html><body><h1>hello world<h1></body></html>

你想要把这个hello world提取出来，但你这时如果只会python 的字符串处理，那么第一反应可能是

s = <html><body><h1>hello world<h1></body></html>start_index = s.find('<h1>')

然后从这个位置向下查找到下一个<h1>出现这样做未尝不可，但是很麻烦不是吗。需要考虑多个标签，一不留神就多匹配到东西了，而如果想要非常准确的匹配到，又得多加循环判断，效率太低。

这时候，正则表达式就是首选的帮手。

干货开始

入门级别

接着说我们刚才那个例子。我们如果拿正则处理这个表达式要怎么做呢？

import rekey = r"<html><body><h1>hello world<h1></body></html>"#这段是你要匹配的文本p1 = r"(?<=<h1>).+?(?=<h1>)"#这是我们写的正则表达式规则，你现在可以不理解啥意思pattern1 = re.compile(p1)#我们在编译这段正则表达式matcher1 = re.search(pattern1,key)#在源文本中搜索符合正则表达式的部分print matcher1.group(0)#打印出来

你可以尝试运行上面的代码，看看是不是和我们想象的一样（博主是在python2.7环境下）发现代码挺少挺简单？往下看。而且正则表达式实际上要比看起来的那种奇形怪状要简单得多。

首先，从最基础的正则表达式说起。

假设我们的想法是把一个字符串中的所有"python"给匹配到。我们试一试怎么做

import rekey = r"javapythonhtmlvhdl"#这是源文本p1 = r"python"#这是我们写的正则表达式pattern1 = re.compile(p1)#同样是编译matcher1 = re.search(pattern1,key)#同样是查询print matcher1.group(0)

上一篇：python 根据正则表达式提取指定的内容实例详解

下一篇：通过Python爬虫代理IP快速增加博客阅读量

学习交流

笔记本开机提示error loading os错误的问

笔记本开机提示error loading os错误的问题怎么解决...

热门图片

猜你喜欢的新闻

猜你喜欢的关注