首发于python数据科学
无障碍
写文章
登录
Python 正则表达re模块之findall()详解
天下难事,必作于易;天下大事,必作于细。无为而无不为!
89 人赞同了该文章
blog.csdn.net/qq\_3655689…
目录
一、re.findall函数介绍
二、代码如下
三、re.findall中正则表达式(.*?)
四、re.findall中参数re.S的意义
一、re.findall函数介绍
它在re.py中有定义:
def findall(pattern, string, flags=0):
"""Return a list of all non-overlapping matches in the string.
If one or more capturing groups are present in the pattern, return
a list of groups; this will be a list of tuples if the pattern
has more than one group.
Empty matches are included in the result."""
return _compile(pattern, flags).findall(string)
返回string中所有与pattern匹配的全部字符串,返回形式为数组。
**findall()**函数的两种表示形式
import re
kk = re.compile(r'\d+')
kk.findall('one1two2three3four4')
#[1,2,3,4]
#注意此处findall()的用法,可传两个参数;
kk = re.compile(r'\d+')
re.findall(kk,"one123")
#[1,2,3]
二、实例代码
后面会讲解代码里的各个部分,先列出来~
import re
str = 'aabbabaabbaa'
# 一个"."就是匹配除 \n (换行符)以外的任意一个字符
print(re.findall(r'a.b',str))#['aab', 'aab']
# *前面的字符出现0次或以上
print(re.findall(r'a*b',str))#['aab', 'b', 'ab', 'aab', 'b']
# 贪婪,匹配从.*前面为开始到后面为结束的所有内容
print(re.findall(r'a.*b',str))#['aabbabaabb']
# 非贪婪,遇到开始和结束就进行截取,因此截取多次符合的结果,中间没有字符也会被截取
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']
# 非贪婪,与上面一样,只是与上面的相比多了一个括号,只保留括号的内容
print(re.findall(r'a(.*?)b',str))#['a', '', 'a']
str = '''aabbab
aabbaa
bb''' #后面多加了2个b
# 没有把最后一个换行的aab算进来
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']
# re.S不会对\n进行中断
print(re.findall(r'a.*?b',str,re.S))#['aab', 'ab', 'aab', 'aa\n b']
三、re.findall中正则表达式(.*?)
字符串是
str = 'aabbabaabbaa'
1. 符号 . 就 是匹配除 \n (换行符)以外的任意一个字符
print(re.findall(r'a.b',str))
#['aab', 'aab']
2.符号 * 前面的字符出现0次或以上
print(re.findall(r'a*b',str))
#['aab', 'b', 'ab', 'aab', 'b']
3.符号.* 贪婪,匹配从.*前面为开始到后面为结束的所有内容
print(re.findall(r'a.*b',str))
#['aabbabaabb']
4.符号.*? 非贪婪,遇到开始和结束就进行截取,因此截取多次符合的结果,中间没有字符也会被截取
print(re.findall(r'a.*?b',str))
#['aab', 'ab', 'aab']
5.符号(.*?) 非贪婪,与上面一样,只是与上面的相比多了一个括号,只保留括号的内容
print(re.findall(r'a(.*?)b',str))
#['a', '', 'a']
关于带括号与不带括号的区别
import re
string="abcdefg acbdgef abcdgfe cadbgfe"
#不带括号
regex=re.compile("((\w+)\s+\w+)")
print(regex.findall(string))
#输出:[('abcdefg acbdgef', 'abcdefg'), ('abcdgfe cadbgfe', 'abcdgfe')]
regex1=re.compile("(\w+)\s+\w+")
print(regex1.findall(string))
#输出:['abcdefg', 'abcdgfe']
regex2=re.compile("\w+\s+\w+")
print(regex2.findall(string))
#输出:['abcdefg acbdgef', 'abcdgfe cadbgfe']
- 第一个 regex 中带有2个括号,其输出list 中包含2个 tuple
- 第二个 regex 中带有1个括号,其输出内容是括号匹配到的内容,而不是整个表达式所匹配到的结果。
- 第三个 regex 中不带括号,其输出的内容就是整个表达式所匹配到的内容。
实际上这并不是python特有的,这是正则所特有的 , 任何一门高级语言使用正则都满足这个特点:有括号时只能匹配到括号中的内容,没有括号【相当于在最外层增加了一个括号】。在正则里面 "()" 代表的是分组的意思,一个括号代表一个分组,你只能匹配到 "()" 中的内容。
四、re.findall中参数re.S的意义
1.字符串变为(后面多加了2个b)
str = '''aabbab
aabbaa
bb'''
2.参数无re.S,没有把最后一个换行的aab算进来
print(re.findall(r'a.*?b',str))
#['aab', 'ab', 'aab']
3.参数有re.S,不会对\n进行中断
print(re.findall(r'a.*?b',str,re.S))
#['aab', 'ab', 'aab', 'aa\n b']
参考
编辑于 2021-03-20 20:11
[
Python
[
正则表达式
[
字符串
赞同 89
16 条评论
分享
喜欢
收藏
申请转载
文章被以下专栏收录
[
python数据科学
推荐阅读
[
正确的正则表达式学习方法是放弃抵抗^_^
HiDaD...发表于数据分析
](zhuanlan.zhihu.com/p/133941819…
Python正则表达式,请不要再用re.compile了!!!
青南发表于未闻Cod...
](zhuanlan.zhihu.com/p/70680488)…
一文看懂Python的re模块及正则表达式(regex)
大江狗发表于Pytho...
](zhuanlan.zhihu.com/p/49485967)…
Python Re:正则表达式
特殊字符: \bbox[#E8F8FF, 4px, border:1px solid gray]{\color{blue}{\texttt{^}}} :匹配字符串的开始 \bbox[#E8F8FF, 4px, border:1px solid gray]{\color{blue}{\texttt{\$}}} :匹配…
张同学
](zhuanlan.zhihu.com/p/92232531)
16 条评论
切换为时间排序
写下你的评论...
发布
-
知乎用户2021-08-14
牛,翻了这么多,就这个看明白了,主要是写的清楚。把正则的具体方式,使用符号都说了。
2
回复
踩
举报
-
摸鱼er2021-11-26
答主,第一个代码块有输出写错啦hhh
re.findall(kk,"one123")的输出应为:['123']
赞
回复
踩
举报
-
IsIand2021-07-18
感谢作者,写的很好,解答了我的困惑
赞
回复
踩
举报
-
不用谢啦
赞
回复
踩
举报
-
Lululu2021-07-11
为什么第一个print(re.findall(r'a.b', str)),为什么只有“aab”“aab”不是还有个"abb”吗?
赞
回复
踩
举报
-
这里应该是作者不小心敲错了
赞
回复
踩
举报
-
每次读完aab,会继续读b后面的,而不是继续读第二个a
赞
回复
踩
举报
展开其他 2 条回复