文本三剑客awk 通过文本模式（匹配字符串）过滤出行按字段（列）输出内容使用NR指定行号 awk 常见的内置变量使

awk

通过文本模式（匹配字符串）过滤出行

awk   '/搜索字符/'  score.txt     #从score.txt 搜索含有 "搜索字符"的行
[root@node01 ~]# awk '/zhangsan|lisi/' score.data
zhangsan 85 90 100
lisi 65 70 95

按字段（列）输出内容

awk   -F  '分隔符'    '{print $1, $2, $3}' 
按照指定分隔符分割文件中每行，并打印第一、二、三列
-F 选项的作用是指定分隔符。如果不加 -F 选项，则以空格或者 tab 为分隔符。
print 为打印的动作，用来打印某个字段。$1 为第 1 个字段，$2 为第 2 个字段，以此类推。
但 $0 比较特殊，它表示整行

使用NR指定行号

NR表示当前处理的行的行号（序数）

1、打印1到3行。逗号表示连续的行内容。&&表示”且“。

 [root@yuji ~]# awk 'NR==1,NR==3 {print $0}' ff.txt  //打印1到3行
 one
 two
 three
 [root@yuji ~]# awk '(NR>=1)&&(NR<=3) {print}' ff.txt
 one
 two
 three

awk 常见的内置变量

-   FS :指定每行文本的字段分隔符，默认为空格或制表符（tab）。与 “-F”作用相同 -v "FS=:"
-   OFS：输出时的分隔符
-   NF：当前处理的行的字段个数
-   NR：当前处理的行的行号（序数）
-   $0：当前处理的行的整行内容
-   $n：当前处理行的第n个字段（第n列）
-   FILENAME:被处理的文件名
-   RS：行分隔符。awk从文件上读取资料时，将根据RS的定义就把资料切割成许多条记录，而awk一次仅读入一条记录进行处理。预设值是\n

使用if语句

使用if语句时，内部条件要加( )，外面要加{ }。

将{ }整条语句当作一个操作命令，相当于嵌套。

[root@localhost ~]#awk -F: '{if($3>1000)print $1,$3}' /etc/passwd
nfsnobody 65534
mysql 1001
lisi 1002
liwu 1003
[root@localhost ~]#awk -F: '{if($3>1000){print $1,$3}else{print $3}}' /etc/passwd

/pat1/,/pat2/ #正则表达式1   到正则表达式2  之间的行
$NF         //代表最后一个字段   ~ 表示包含，!~ 表示不包含，== 表示等于，!= 表示不等于   
$n> < ==     //用于对比数值  
$n~"字符串"   //代表第n个字段 包含 某个字符串的作用  
$n!~"字符串"   //代表第n个字段 不包含 某个字符串的作用  
$n=="字符串"   //代表第n个字段 为 某个字符串的作用  
$n!="字符串"   //代表第n个字段 不为 某个字符串的作用

BEGIN模式

格式：

 awk 'BEGIN{...};{...};END{...}' 文件
 
 #处理过程：
 1、在awk处理指定的文本之前，需要先执行BEGIN{...}模式里的命令操作;
 2、中间的{...} 是真正用于处理文件的命令操作；
 3、在awk处理完文件后才会执行END{...}模式里的命令操作。END{ }语句块中，往往会放入打印结果等语句。

示例：

统计以bash结尾的行。

BEGIN是处理文件之前进行的操作，END是处理文件之后进行的操作。
/bash$/ 是需要满足的条件。
BEGIN语块中先指定一个变量x=0；之后处理文件、每检索出一次以bash结尾的行，就执行x=x+1；最后执行END语块中的命令，打印x的值。

 [root@yuji ~]# awk '/bash$/{print}' pass.txt
 root:x:0:0:root:/root:/bin/bash
 yuji2:x:1000:1000:yuji2:/home/yuji2:/bin/bash
 nancy:x:1021:1021::/home/nancy:/bin/bash
 helen:x:1022:1022::/home/helen:/bin/bash
 [root@yuji ~]# awk 'BEGIN{x=0};/bash$/{x++};END{print x}' pass.txt 
 4

案例

通过分析日志 /var/log/secure 查看哪些主机在暴力破解本机服务，如果统计出密码验证失败超过三次（不考虑连续性），就把IP加入到黑名单中 /etc/hosts.deny。

方法一：

 #过滤出包含“Failed password”的行，打印第11个字段，且按照数字排序
 [root@yuji ~]# awk '/Failed password/{print $11}' /var/log/secure |sort -n 
 192.168.72.10
 192.168.72.10
 192.168.72.10
 192.168.72.10
 192.168.72.192
 192.168.72.192
 192.168.72.192
 
 #统计重复行出现的次数
 [root@yuji ~]# awk '/Failed password/{print $11}' /var/log/secure |sort -n |uniq -c
       4 192.168.72.10
       3 192.168.72.192
 
 #判断重复的次数如果大于3次，则在IP前加上"sshd："，并将其追加进/etc/hosts.deny文件中
 [root@yuji ~]# awk '/Failed password/{print $11}' /var/log/secure |sort -n |uniq -c| awk '$1>3 {print "sshd:"$2}' >>/etc/hosts.deny
 
 #查看etc/hosts.deny文件
 [root@yuji ~]# cat /etc/hosts.deny
 #
 # hosts.deny    This file contains access rules which are used to
 #               deny connections to network services that either use
 #               the tcp_wrappers library or that have been
 #               started through a tcp_wrappers-enabled xinetd.
 #
 #               The rules in this file can also be set up in
 #               /etc/hosts.allow with a 'deny' option instead.
 #
 #               See 'man 5 hosts_options' and 'man 5 hosts_access'
 #               for information on rule syntax.
 #               See 'man tcpd' for information on tcp_wrappers
 #
 sshd:192.168.72.10

正则表达式

正则表达式被很多程序和开发语言所广泛支持：vim, less,grep,sed,awk, nginx,mysql 等

主要用来匹配字符串（命令结果，文本内容），必须加双引号

通配符匹配文件（而且是已存在的文件）

元字符（字符匹配）

.   匹配任意单个字符，可以是一个汉字  
[]   匹配指定范围内的任意单个字符，示例：  [0-9] [A-Z]   
[^] ^在括号内表示取反。即匹配括号内字符以外的任意一个字符，只能匹配单个字符


[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符，亦即 A-Z, a-z
[:lower:] 小写字母,示例:[[:lower:]],相当于[a-z]
[:upper:] 大写字母
[:blank:] 空白字符（空格和制表符）
[:space:] 包括空格、制表符(水平和垂直)、换行符、回车符等各种类型的空白,比[:blank:]包含的范围
广
[:cntrl:] 不可打印的控制字符（退格、删除、警铃...）
[:digit:] 十进制数字
[:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号

位置锚定

^ #行首锚定, 用于模式的最左侧
$ #行尾锚定，用于模式的最右侧
^PATTERN$ #用于模式匹配整行 （单独一行  只有root）
^$ #空行
^[[:space:]]*$ #  空白行

\< 或 \b        #词首锚定，用于单词模式的左侧(连续的数字，字母，下划线都算单词内部)
\> 或 \b        #词尾锚定，用于单词模式的右侧

表示次数

* #匹配前面的字符任意次，包括0次，贪婪模式：尽可能长的匹配
.* #任意长度的任意字符,不包括0次
\? #匹配其前面的字符出现0次或1次,即:可有可无
\+ #匹配其前面的字符出现最少1次,即:肯定有且 >=1 次
\{n\} #匹配前面的字符n次
\{m,n\} #匹配前面的字符至少m次，至多n次
\{,n\}  #匹配前面的字符至多n次,<=n
\{n,\}  #匹配前面的字符至少n次

ifconfig ens33|grep netmask|grep -o '[0-9]\+\.[0-9]\+\.[0-9]\+\.[0-9]\+'|head -n1
ifconfig ens33|grep netmask|grep -o '[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}'|head -n1

分组或其他

分组：\( ..\) 将多个字符捆绑在一起或者：\|

[root@localhost ~]#echo abccc |grep "abc\{3\}"
abccc

[root@localhost ~]#echo abcabcabc |grep "\(abc\)\{3\}"
#分组 匹配abc
abcabcabc
[root@localhost ~]#echo 1abc |grep  "1\|2abc"
#只匹配了1
1abc

[root@localhost ~]#echo 1abc |grep  "\(1\|2\)abc"
#1abc或者2abc
1abc

[root@localhost ~]#ifconfig ens33|grep netmask|grep -o '\([0-9]\{1,3\}\.\)\{3\}[0-9]\{3\}'|head -1
192.168.91.100

扩展正则表达式（表示字符相差不大）

grep -E

egrep

表示次数


*   匹配前面字符任意次
? 0或1次
+ 1次或多次
{n} 匹配n次
{m,n} 至少m，至多n次
{,n}  #匹配前面的字符至多n次,<=n，n可以为0
{n,} #匹配前面的字符至少n次,<=n，n可以为0

表示分组


() 分组
分组：() 将多个字符捆绑在一起，当作一个整体处理，如：(root)+
后向引用：\1, \2, ...
| 或者  
a|b #a或b
C|cat #C或cat
(C|c)at #Cat或cat

sed

sed的工作流程

sed的工作流程主要包括读取、执行和显示三个过程：

读取： sed从输入流 (文件、管道、标准输入) 中读取一行内容并存储到临时的缓冲区中（又称模式空间，pattern space )。
执行： 默认情况下，所有的sed命令都在模式空间中顺序地执行，除非指定了行的地址，否则sed命令将会在所有的行上依次执行。
显示： 发送修改后的内容到输出流。在发送数据后，模式空间将会被清空。在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

注意：默认情况下所有的sed命令都是在模式空间内执行的，因此输入的文件并不会发生任何变化，除非使用"sed -i"修改源文件、或使用重定向输出到新的文件中。

sed格式

sed [option]... 'script;script;...' [input  file...]
     选项         脚本语法(地址+命令)         支持标准输入管道

常用选项

选项	作用
-e 或--expression=	表示用指定命令来处理输入的文本文件，只有一个操作命令时可省略，一般在执行多个操作命令使用
-f 或--file=	表示用指定的脚本文件来处理输入的文本文件
-h 或--help	显示帮助
-n、--quiet或--silent	禁止sed编辑器输出，关闭自动打印功能
-i	直接修改目标文本文件
-i.bak	备份文件并原处编辑
-r, -E	使用扩展正则表达式在使用{n}、{n,}、{n,m}时，括号{}前不需要加反斜杠\

执行多条命令的三种方法：
 sed -n -e '操作1' -e '操作2' 文件
 
 sed -n -e '操作1;操作2' 文件
 
 sed -e 'n{
 操作1
 操作2
 ......
 }' 文件1

地址

1. 不给地址：对全文进行处理（比如行号）
2. 单地址：
   #：指定的行，$：最后一行 
   /pattern/：被此处模式所能够匹配到的每一行，正则表达式
3. 地址范围：
   #,#     #从#行到第#行，3，6 从第3行到第6行
   #,+#   #从#行到+#行，3,+4 表示从3行到第7行
   /pat1/,/pat2/    第一个正则表达式和第二个正则表达式之间的行
   #,/pat/  从#号行为开始找到 pat为止 
   /pat/,#  找到#号个pat为止
4. 步进：~
     1~2 奇数行
     2~2 偶数行

常用操作命令

操作	作用
s	替换，替换指定字符
d	删除，删除选定的行
a	增加，在当前行下方增加一行指定内容支持使用\n实现多行追加
i	插入，在选定行上方插入一行指定内容
c	替换，将选定行替换为指定内容
y	字符转换，转换前后的字符长度必须相同
p	打印行内容。如果同时指定行，表示打印指定行；如果不指定行，则表示打印所有内容；如果有非打印字符，则以ASCII码输出。其通常与"-n"选项一起使用
=	打印行号
l (小写L)	打印数据流中的文本和不可打印的ASCII字符（比如结束符$、制表符\t）
w file	保存模式匹配的行至指定文件
r file	读取指定文件的文本至选定的行后
=	为模式空间中的行打印行号
!	模式空间中匹配行取反处理

p

[root@localhost ~]#sed -n '/root/p' /etc/passwd
##将包含root的行打印出来   /root(需要匹配的内容)/p(打印)  文件名  
###与 grep root /etc/passwd 功能相同
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin



[root@localhost ~]#sed -n '/^b/,/^f/p' /etc/passwd  //显示b开头 和f开头中间的行
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin


[root@localhost ~]#sed -n '/2018:08:09/,/2018:09:42:37/p' access_log  //让你查找几点几分到几点几分之间的日志

搜索替代s

行范围 s/旧字符串/新字符串/替换标记    
#4种替换标记：  
数字：表明新字符串将替换第几处匹配的地方 
g：表面新字符串将会替换所有匹配的地方  
p：打印与替换命令匹配的行，与-n一起使用  
w 文件：将替换的结果写入文件中



[root@yuji ~]# echo 000010101 | sed 's/^0*//' //删除开头所有的0  10101


[root@yuji ~]# sed -n '/^root/ s/^/#/p' pass.txt //过滤出以root开头的行，在行首加上#  、#root:x:0:0:root:/root:/bin/bash  
#operator:x:11:0:operator:/root:/sbin/nologin

[root@yuji ~]# sed -n 's/.*root.*/#&/p' pass.txt  #root:x:0:0:root:/root:/bin/bash //过滤出以root开头的行，在行首加上#
#root:x:0:0:root:/root:/bin/bash
#operator:x:11:0:operator:/root:/sbin/nologin

**指定分隔符**

当字符串中包含"/"时，需要在前面加上转义符\，避免和分隔符"/"混淆。这样操作非常麻烦，且容易眼花看错，此时可以自己指定分隔符。

s后面的第一个字符就是分隔符，3个分隔符要保持一致，如果遇到跟分隔符相同的字符需要使用 \ 转义成普通字符。



 #默认分隔符为"/"
 [root@yuji ~]# sed -n 's//bin/bash//sbin/nologin/p' pass.txt
 root:x:0:0:root:/root:/sbin/nologin
 yuji2:x:1000:1000:yuji2:/home/yuji2:/sbin/nologin
 nancy:x:1021:1021::/home/nancy:/sbin/nologin
 helen:x:1022:1022::/home/helen:/sbin/nologin
 
 #指定#作为分割符
 [root@yuji ~]# sed -n 's#/bin/bash#/sbin/nologin#p' pass.txt
 root:x:0:0:root:/root:/sbin/nologin
 yuji2:x:1000:1000:yuji2:/home/yuji2:/sbin/nologin
 nancy:x:1021:1021::/home/nancy:/sbin/nologin
 helen:x:1022:1022::/home/helen:/sbin/nologin

分组

[root@localhost ~]#echo 123abcxyz |sed -r 's/(123)(abc)(xyz)/\1/'
##分组 s//代表查找替换  （）代表分组    \1 代表留下的组
123

[root@localhost ~]#echo 123xyzabc |sed -r 's/(123)(xyz)(abc)/\2\1/'
xyz123  //字符串互换


[root@localhost ~]#ifconfig ens33|sed -rn '2s/.*inet ([0-9.]+) .*/\1/p'
192.168.91.100

变量

[root@www data]#name=root
[root@www data]#sed -nr "/$name/p" /etc/passwd //涉及变量要用双引号
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin

[root@www data]#sed -nr '/'$name'/p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin

[root@www data]#port=8080
[root@www data]#sed -ri 's/^Listen 80/Listen '$port'/' httpd.conf



[root@www data]#sed -ri -e 's/^Listen 80/Listen '$port'/' -e "/^#ServerName/c ServerName `hostname`:$port"   httpd.conf