一，正则表达式

基础正则表达式

正则表达式---通常用于判断语句中，用来检查某一字符串是否满足某一格式

正则表达式是由普通字符与元字符组成

普通字符包括大小写字母、数字、标点符号及一些其他符号

元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式

1. LINUX 中常用的有两种正则表达式引擎

1.基础正则表达式：BRE

2.扩展正则表达式: ERE

基础正则表达式常见元字符：(支持的工具：grep、egrep、sed、awk)

特殊字符

\：转义符，将特殊字符进行转义，忽略其特殊意义a.b匹配a.b，但不能匹配ajb，.被转义为特殊意义\\
^：匹配行首，^则是匹配字符串的开始^tux匹配以tux开头的行^^^^
$：匹配行尾，$ 则是匹配字符串的结尾tux$匹配以tux结尾的行$$$$
.：匹配除换行符\r\n之外的任意单个字符
[list]：匹配list列表中的一个字符例： go[ola]d，[abc]、[a-z]、[a-z0-9]
[^list]：匹配任意不在list列表中的一个字符例： [^a-z]、[^0-9]、[^A-Z0-9]
：匹配前面子表达式0次或者多次例：good、go.*d
\{n\} :匹配前面的子表达式n次，例:go\{2\}d、'[O-9]\{2\}'匹配两位数字

9.\{n,\}:匹配前面的子表达式不少于n次，例: go{2,\}d、' [0-9]\{2,\}'匹配两位及两位以上数字

10.\{n,m\}﹔匹配前面的子表达式n到m次，例: go\{2,3\)d、'[0-9]\{2,3\}'匹配两位到三位数字

注: egrep、awk使用{n}、{n, }、{n, m}匹配时“{}"前不用加"\” egrep -E -n 'wo{2}d' test.txt //-E 用于显示文件中符合条件的字符

定位符

^ 匹配输入字符串开始的位置
$ 匹配输入字符串结尾的位置

非打印字符

\n 匹配一个换行符
\r 匹配一个回车符
\t 匹配一个制表符

grep [选项]… 查找条件目标文件

-E ：开启扩展（Extend）的正则表达式
-c ：计算找到 '搜寻字符串' 的次数
-i ：忽略大小写的不同，所以大小写视为相同
-o ：只显示被模式匹配到的字符串
-v ：反向选择，亦即显示出没有 '搜寻字符串' 内容的那一行！（反向查找，输出与查找条件不相符的行）
--color=auto ：可以将找到的关键词部分加上颜色的显示喔！
-n ：顺便输出行号

二，文件处理器

cut

cut：列截取工具使用说明:

cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。

如果不指定 File 参数，cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一

选项：

-b：按字节截取
-c：按字符截取，常用于中文
-d：指定以什么为分隔符截取，默认为制表符
-f：通常和-d一起

注意：cut只擅长于处理单个字符为间隔的文本

sort

是一个以行为单位对文件内容进行排序的工具，也可以根据不同的数据类型来排序。

例如数据和字符的排序就不一样

sort [选项] 参数

常用选项  

-t：指定分隔符，默认使用[Tab]吧 键或空格分隔  
-k：指定排序区域，哪个区间排序  
-n：按照数字进行排序，默认是以文字形式排序  
-u：等同于 uniq，表示相同的数据仅显示一行，注意：如果行尾有空格去重就不成功  
-r：反向排序，默认是升序，-r就是降序  
-o：将排序后的结果转存至指定文件

uniq

主要用于去除连续的重复行

注意：是连续的行，所以通常和sort结合使用先排序使之变成连续的行再执行去重操作，否则不连续的重复行他不能去重

（1）语法
uniq [选项] 参数

（2）常用选项
-c：对重复的行进行计数；
-d：仅显示重复行；
-u：仅显示出现一次的行

tr

tr：它可以用一个字符来替换另一个字符，或者可以完全除去一些字符，也可以用它来除去重复字符

语法  
用法：tr [选项]… SET1 [SET2]  
从标准输入中替换、缩减和/或删除字符，并将结果写到标准输出。

常用选项  
-d 删除字符  
-s 删除所有重复出现的字符，只保留第一个

Linux----正则表达式