本文已参与「新人创作礼」活动, 一起开启掘金创作之路。
S: Series I: Index
.capitalize()S/I将Series/Index中的字符串大写.cat()S/I/str使用给定分隔符连接字符串other=NoneNone: 使用sep连接给定的Series返回一个strList_like: 与Series对应位置的字符串用sep连接返回一个S
sep=None分隔符na_rep=None遇到NA值忽略或使用指定字符替换
.center()S在字符串两端填充指定字符到指定长度width填充后的字符串长度fillchar=' '用于填充的字符串
.contains()S[bool]判断指定字符串或正则表达式是否在序列或索引中pat字符串或正则表达式case=True是否区分大小写flags=0可传入re.IGNORECASE之类的参数na=nan缺失值填充regex=True是否使用正则表达式匹配
.count()S[int]统计指定字符串在序列字符串中出现的次数pat字符串或正则表达式flags=0可传入re.IGNORECASE之类的参数
.decode()S[str]解码encoding解码方式errors='static'error处理方式
.encode()S[b'']编码encoding编码方式error='static'error处理方式
.endswith()S[bool]判断是否以给定的字符串结尾pat字符串na=nan缺失值填充
.extract()使用正则表达式提取需要的内容(只匹配一次)pat正则表达式(必须含有捕获组, 超过一个必然返回DataFrame)flags=0可传入re.IGNORECASE之类的参数expand=NoneTrue: 返回DataFrame(未来版本默认值)False: 返回S/I/DataFrame(现在版本默认值)
.extractall()df获取所有的正则表达式匹配到的内容(以多级索引的方式展示)pat含捕获组的正则表达式, 若捕获组设有name则将作为返回的列标签flags=0可传入re.IGNORECASE之类的参数
.find()S查找sub在序列字符串的子字符串中出现的位置, 找不到返回-1sub字符串start=0子字符串开始的位置end=None子字符串结束的位置
.findall()S[list]相当于对序列中每个字符串执行 re.findall(pat, string)pat正则表达式flags=0可传入re.IGNORECASE之类的参数
.get()Si 获取指定位置的字符, 超出长度则返回Na.index()S同.find() 不过找不到将引发Error.join()Ssep 给每个字符串的字符间插入指定字符.len()S返回每个字符串的长度.ljust()S同 .center() 不过只在右侧填充.lower()S所有字符小写.lstrip()Sto_strip=None 去除左侧指定字符, 默认去掉空白符.match()S[bool]判断字符串与正则表达式是否匹配, 即正则表达式能否匹配到内容pat字符串或正则表达式case=True是否区分大小写flags=0可传入re.IGNORECASE之类的参数na=nan缺失值填充as_indexer=None弃用
.normalize()Sfrom 返回字符串的Unicode标准格式.pad()S在序列字符串左侧/右侧/两侧填充指定字符串到指定长度width将字符串填充到的长度side='left''left': 在左侧填充'right': 在右侧填充'both': 在两侧填充, 原字符串居中
fillchar=' '填充的字符
.partition()第一次出现pat时将字符串分割为三个部分: pat前面的部分, pat本身, pat后面的部分pat=' '字符串expand=TrueTrue: 返回DataFrame/MultilndexFalse: 返回Series/Index, 元素为Tuple
.repeat()将字符串扩展n倍, 比如 'a' 扩展 2 倍为 'aa'repeatsint: 序列中所有字符串扩展相同倍数list_like: 长度需和序列长度一致, 对应每个元素扩展对应倍数
.replace()S更新字符串pat字符串或编译的正则表达式replstr: 将匹配到的字符串替换为此字符串fun: 传给fun的是对象相当于re.search(pat, string)的返回值
n=-1替换的次数, 默认全部case=None是否区分大小写, 如果pat为字符串则默认为True, 若为编译的正则表达式则不能设置flags=0可传入re.IGNORECASE之类的参数, 但若pat为编译的正则表达式则不能设置
.rfind()同 .find() 不过从右往左检索.rindex()同 .index() 不过从右往左检索.rjust()同 .center() 不过只在左侧填充.rpartition()同.partition(), 不过从右往左检索pat字符串.rstrip()Sto_strip=None 去除右侧指定字符, 默认去掉空白符.slice()S截取子字符串start=None开始位置stop=None结束位置step=None步长
.slice_replace()S截取子字符串, 并将截取部分替换为replstart=None开始位置stop=None结束位置repl=None要替换为的字符串
.split()对字符串按照给定字符进行分割pat=None分隔符, 默认空白符n=-1分割次数, 默认全部expand=FalseTrue: 返回DataFrame/MultiINdexFalse: 返回Series/Index
.rsplit()同.split() 不过从右侧开始分割.startswith()S[bool]判断序列字符串是否以指定字符串开头pat字符串na=nan缺失值填充
.strip()Sto_strip=None 去除两侧指定字符, 默认去掉空白符.swapcase()S将小写字符大写, 将大写字符小写.title()S将首字母大写, 其余字符小写.translate()参考python内置字符串处理方法 .translate().upper()S全部大写.wrap()Swidth 在指定位置插入换行符.zfill()Swidth 在字符串前面填充0到指定长度.isalnum()S[bool]字符串至少包含一个字符且所有字符都是字母(汉字)或数字则返回True.isalpha()S[bool]字符串至少包含一个字符且所有字符都是字母(汉字)则返回True.isdigit()S[bool]只包含数字(可以是: Unicode, 全角字符, bytes(b'1'), 罗马数字).isspace()S[bool]只包含空白符.islower()S[bool]至少包含一个小写字符, 且不包含大写字符.isupper()S[bool]至少包含一个大写字符, 且不包含小写字符.istitle()S[bool]所有单词大写开头其余小写(标题化).isnumeric()S[bool]只包含数字字符.isdecimal()S[bool]只包含数字(Unicode字符, 全角字符).get_dummies()dfsep='|'把字符串按照指定分隔符分割, 并返回分割后的字符串出现的次数