文本三剑客

154 阅读8分钟

awk

通过文本模式(匹配字符串)过滤出行

awk   '/搜索字符/'  score.txt     #从score.txt 搜索含有 "搜索字符"的行
[root@node01 ~]# awk '/zhangsan|lisi/' score.data
zhangsan 85 90 100
lisi 65 70 95

按字段(列)输出内容

awk   -F  '分隔符'    '{print $1, $2, $3}' 
按照指定分隔符分割文件中每行,并打印第一、二、三列
-F 选项的作用是指定分隔符。如果不加 -F 选项,则以空格或者 tab 为分隔符。
print 为打印的动作,用来打印某个字段。$1 为第 1 个字段,$2 为第 2 个字段,以此类推。
但 $0 比较特殊,它表示整行

使用NR指定行号

NR表示当前处理的行的行号(序数)

1、打印13行。逗号表示连续的行内容。&&表示”且“。

 [root@yuji ~]# awk 'NR==1,NR==3 {print $0}' ff.txt  //打印13行
 one
 two
 three
 [root@yuji ~]# awk '(NR>=1)&&(NR<=3) {print}' ff.txt
 one
 two
 three

awk 常见的内置变量

-   FS :指定每行文本的字段分隔符,默认为空格或制表符(tab)。与 “-F”作用相同 -v "FS=:"
-   OFS:输出时的分隔符
-   NF:当前处理的行的字段个数
-   NR:当前处理的行的行号(序数)
-   $0:当前处理的行的整行内容
-   $n:当前处理行的第n个字段(第n列)
-   FILENAME:被处理的文件名
-   RS:行分隔符。awk从文件上读取资料时,将根据RS的定义就把资料切割成许多条记录,而awk一次仅读入一条记录进行处理。预设值是\n

使用if语句

使用if语句时,内部条件要加( ),外面要加{ }。

将{ }整条语句当作一个操作命令,相当于嵌套。

[root@localhost ~]#awk -F: '{if($3>1000)print $1,$3}' /etc/passwd
nfsnobody 65534
mysql 1001
lisi 1002
liwu 1003
[root@localhost ~]#awk -F: '{if($3>1000){print $1,$3}else{print $3}}' /etc/passwd

/pat1/,/pat2/ #正则表达式1   到正则表达式2  之间的行
$NF         //代表最后一个字段   ~ 表示包含,!~ 表示不包含,== 表示等于,!= 表示不等于   
$n> < ==     //用于对比数值  
$n~"字符串"   //代表第n个字段 包含 某个字符串的作用  
$n!~"字符串"   //代表第n个字段 不包含 某个字符串的作用  
$n=="字符串"   //代表第n个字段 为 某个字符串的作用  
$n!="字符串"   //代表第n个字段 不为 某个字符串的作用

BEGIN模式

格式:

 awk 'BEGIN{...};{...};END{...}' 文件
 ​
 #处理过程:
 1、在awk处理指定的文本之前,需要先执行BEGIN{...}模式里的命令操作;
 2、中间的{...} 是真正用于处理文件的命令操作;
 3、在awk处理完文件后才会执行END{...}模式里的命令操作。END{ }语句块中,往往会放入打印结果等语句。

示例:

统计以bash结尾的行。

  • BEGIN是处理文件之前进行的操作,END是处理文件之后进行的操作。
  • /bash$/ 是需要满足的条件。
  • BEGIN语块中先指定一个变量x=0;之后处理文件、每检索出一次以bash结尾的行,就执行x=x+1;最后执行END语块中的命令,打印x的值。
 [root@yuji ~]# awk '/bash$/{print}' pass.txt
 root:x:0:0:root:/root:/bin/bash
 yuji2:x:1000:1000:yuji2:/home/yuji2:/bin/bash
 nancy:x:1021:1021::/home/nancy:/bin/bash
 helen:x:1022:1022::/home/helen:/bin/bash
 [root@yuji ~]# awk 'BEGIN{x=0};/bash$/{x++};END{print x}' pass.txt 
 4

案例

通过分析日志 /var/log/secure 查看哪些主机在暴力破解本机服务,如果统计出密码验证失败超过三次(不考虑连续性),就把IP加入到黑名单中 /etc/hosts.deny。

方法一:

 #过滤出包含“Failed password”的行,打印第11个字段,且按照数字排序
 [root@yuji ~]# awk '/Failed password/{print $11}' /var/log/secure |sort -n 
 192.168.72.10
 192.168.72.10
 192.168.72.10
 192.168.72.10
 192.168.72.192
 192.168.72.192
 192.168.72.192
 ​
 #统计重复行出现的次数
 [root@yuji ~]# awk '/Failed password/{print $11}' /var/log/secure |sort -n |uniq -c
       4 192.168.72.10
       3 192.168.72.192
 ​
 #判断重复的次数如果大于3次,则在IP前加上"sshd:",并将其追加进/etc/hosts.deny文件中
 [root@yuji ~]# awk '/Failed password/{print $11}' /var/log/secure |sort -n |uniq -c| awk '$1>3 {print "sshd:"$2}' >>/etc/hosts.deny
 ​
 #查看etc/hosts.deny文件
 [root@yuji ~]# cat /etc/hosts.deny
 #
 # hosts.deny    This file contains access rules which are used to
 #               deny connections to network services that either use
 #               the tcp_wrappers library or that have been
 #               started through a tcp_wrappers-enabled xinetd.
 #
 #               The rules in this file can also be set up in
 #               /etc/hosts.allow with a 'deny' option instead.
 #
 #               See 'man 5 hosts_options' and 'man 5 hosts_access'
 #               for information on rule syntax.
 #               See 'man tcpd' for information on tcp_wrappers
 #
 sshd:192.168.72.10

正则表达式

正则表达式被很多程序和开发语言所广泛支持:vim, less,grep,sed,awk, nginx,mysql 等

主要用来匹配字符串(命令结果,文本内容),必须加双引号

通配符匹配文件(而且是已存在的文件)

元字符(字符匹配)

.   匹配任意单个字符,可以是一个汉字  
[]   匹配指定范围内的任意单个字符,示例:  [0-9] [A-Z]   
[^] ^在括号内表示取反。即匹配括号内字符以外的任意一个字符,只能匹配单个字符


[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:] 小写字母,示例:[[:lower:]],相当于[a-z]
[:upper:] 大写字母
[:blank:] 空白字符(空格和制表符)
[:space:] 包括空格、制表符(水平和垂直)、换行符、回车符等各种类型的空白,比[:blank:]包含的范围
广
[:cntrl:] 不可打印的控制字符(退格、删除、警铃...)
[:digit:] 十进制数字
[:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号

位置锚定

^ #行首锚定, 用于模式的最左侧
$ #行尾锚定,用于模式的最右侧
^PATTERN$ #用于模式匹配整行 (单独一行  只有root)
^$ #空行
^[[:space:]]*$ #  空白行

\< 或 \b        #词首锚定,用于单词模式的左侧(连续的数字,字母,下划线都算单词内部)
\> 或 \b        #词尾锚定,用于单词模式的右侧

表示次数

* #匹配前面的字符任意次,包括0次,贪婪模式:尽可能长的匹配
.* #任意长度的任意字符,不包括0次
\? #匹配其前面的字符出现0次或1次,即:可有可无
\+ #匹配其前面的字符出现最少1次,即:肯定有且 >=1 次
\{n\} #匹配前面的字符n次
\{m,n\} #匹配前面的字符至少m次,至多n次
\{,n\}  #匹配前面的字符至多n次,<=n
\{n,\}  #匹配前面的字符至少n次

ifconfig ens33|grep netmask|grep -o '[0-9]\+\.[0-9]\+\.[0-9]\+\.[0-9]\+'|head -n1
ifconfig ens33|grep netmask|grep -o '[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}'|head -n1

分组或其他

分组:\( ..\) 将多个字符捆绑在一起 或者:\|

[root@localhost ~]#echo abccc |grep "abc\{3\}"
abccc

[root@localhost ~]#echo abcabcabc |grep "\(abc\)\{3\}"
#分组 匹配abc
abcabcabc
[root@localhost ~]#echo 1abc |grep  "1\|2abc"
#只匹配了1
1abc

[root@localhost ~]#echo 1abc |grep  "\(1\|2\)abc"
#1abc或者2abc
1abc

[root@localhost ~]#ifconfig ens33|grep netmask|grep -o '\([0-9]\{1,3\}\.\)\{3\}[0-9]\{3\}'|head -1
192.168.91.100

扩展正则表达式(表示字符相差不大)

grep -E

egrep

表示次数


*   匹配前面字符任意次
? 0或1次
+ 1次或多次
{n} 匹配n次
{m,n} 至少m,至多n次
{,n}  #匹配前面的字符至多n次,<=n,n可以为0
{n,} #匹配前面的字符至少n次,<=n,n可以为0

表示分组


() 分组
分组:() 将多个字符捆绑在一起,当作一个整体处理,如:(root)+
后向引用:\1, \2, ...
| 或者  
a|b #ab
C|cat #Ccat
(C|c)at #Catcat

sed

sed的工作流程

sed的工作流程主要包括读取、执行和显示三个过程:

  • 读取: sed从输入流 (文件、管道、标准输入) 中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space )。
  • 执行: 默认情况下,所有的sed命令都在模式空间中顺序地执行,除非指定了行的地址,否则sed命令将会在所有的行上依次执行。
  • 显示: 发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。在所有的文件内容都被处理完成之前,上述过程将重复执行, 直至所有内容被处理完。

在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。

注意:默认情况下所有的sed命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,除非使用"sed -i"修改源文件、或使用重定向输出到新的文件中。

sed格式

sed [option]... 'script;script;...' [input  file...]
     选项         脚本语法(地址+命令)         支持标准输入管道

常用选项

选项作用
-e 或--expression=表示用指定命令来处理输入的文本文件,只有一个操作命令时可省略,一般在执行多个操作命令使用
-f 或--file=表示用指定的脚本文件来处理输入的文本文件
-h 或--help显示帮助
-n、--quiet或--silent禁止sed编辑器输出,关闭自动打印功能
-i直接修改目标文本文件
-i.bak备份文件并原处编辑
-r, -E使用扩展正则表达式 在 使用{n}、{n,}、{n,m}时,括号{}前不需要加反斜杠\
执行多条命令的三种方法:
 sed -n -e '操作1' -e '操作2' 文件
 ​
 sed -n -e '操作1;操作2' 文件
 ​
 sed -e 'n{
 操作1
 操作2
 ......
 }' 文件1

地址

1. 不给地址:对全文进行处理(比如行号)
2. 单地址:
   #:指定的行,$:最后一行 
   /pattern/:被此处模式所能够匹配到的每一行,正则表达式
3. 地址范围:
   #,#     #从#行到第#行,3,6 从第3行到第6行
   #,+#   #从#行到+#行,3,+4 表示从3行到第7行
   /pat1/,/pat2/    第一个正则表达式和第二个正则表达式之间的行
   #,/pat/  从#号行为开始找到 pat为止 
   /pat/,#  找到#号个pat为止
4. 步进:~
     1~2 奇数行
     2~2 偶数行

常用操作命令

操作作用
s替换,替换指定字符
d删除,删除选定的行
a增加,在当前行下方增加一行指定内容 支持使用\n实现多行追加
i插入,在选定行上方插入一行指定内容
c替换,将选定行替换为指定内容
y字符转换,转换前后的字符长度必须相同
p打印行内容。如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以ASCII码输出。其通常与"-n"选项一起使用
=打印行号
l (小写L)打印数据流中的文本和不可打印的ASCII字符(比如结束符$、制表符\t)
w file保存模式匹配的行至指定文件
r file读取指定文件的文本至选定的行后
=为模式空间中的行打印行号
!模式空间中匹配行取反处理
p
[root@localhost ~]#sed -n '/root/p' /etc/passwd
##将包含root的行打印出来   /root(需要匹配的内容)/p(打印)  文件名  
###与 grep root /etc/passwd 功能相同
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin



[root@localhost ~]#sed -n '/^b/,/^f/p' /etc/passwd  //显示b开头 和f开头中间的行
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin


[root@localhost ~]#sed -n '/2018:08:09/,/2018:09:42:37/p' access_log  //让你查找几点几分到几点几分之间的日志
搜索替代s
行范围 s/旧字符串/新字符串/替换标记  ​  
#4种替换标记:  
数字:表明新字符串将替换第几处匹配的地方 
g:表面新字符串将会替换所有匹配的地方  
p:打印与替换命令匹配的行,与-n一起使用  
w 文件:将替换的结果写入文件中



[root@yuji ~]# echo 000010101 | sed 's/^0*//' //删除开头所有的0  10101


[root@yuji ~]# sed -n '/^root/ s/^/#/p' pass.txt //过滤出以root开头的行,在行首加上#  、#root:x:0:0:root:/root:/bin/bash  
#operator:x:11:0:operator:/root:/sbin/nologin

[root@yuji ~]# sed -n 's/.*root.*/#&/p' pass.txt  #root:x:0:0:root:/root:/bin/bash //过滤出以root开头的行,在行首加上#
#root:x:0:0:root:/root:/bin/bash
#operator:x:11:0:operator:/root:/sbin/nologin   
**指定分隔符**

当字符串中包含"/"时,需要在前面加上转义符\,避免和分隔符"/"混淆。这样操作非常麻烦,且容易眼花看错,此时可以自己指定分隔符。

s后面的第一个字符就是分隔符,3个分隔符要保持一致,如果遇到跟分隔符相同的字符需要使用 \ 转义成普通字符。



 #默认分隔符为"/"
 [root@yuji ~]# sed -n 's//bin/bash//sbin/nologin/p' pass.txt
 root:x:0:0:root:/root:/sbin/nologin
 yuji2:x:1000:1000:yuji2:/home/yuji2:/sbin/nologin
 nancy:x:1021:1021::/home/nancy:/sbin/nologin
 helen:x:1022:1022::/home/helen:/sbin/nologin
 ​
 #指定#作为分割符
 [root@yuji ~]# sed -n 's#/bin/bash#/sbin/nologin#p' pass.txt
 root:x:0:0:root:/root:/sbin/nologin
 yuji2:x:1000:1000:yuji2:/home/yuji2:/sbin/nologin
 nancy:x:1021:1021::/home/nancy:/sbin/nologin
 helen:x:1022:1022::/home/helen:/sbin/nologin
分组
[root@localhost ~]#echo 123abcxyz |sed -r 's/(123)(abc)(xyz)/\1/'
##分组 s//代表查找替换  ()代表分组    \1 代表留下的组
123

[root@localhost ~]#echo 123xyzabc |sed -r 's/(123)(xyz)(abc)/\2\1/'
xyz123  //字符串互换


[root@localhost ~]#ifconfig ens33|sed -rn '2s/.*inet ([0-9.]+) .*/\1/p'
192.168.91.100
变量
[root@www data]#name=root
[root@www data]#sed -nr "/$name/p" /etc/passwd //涉及变量要用双引号
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin

[root@www data]#sed -nr '/'$name'/p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin

[root@www data]#port=8080
[root@www data]#sed -ri 's/^Listen 80/Listen '$port'/' httpd.conf



[root@www data]#sed -ri -e 's/^Listen 80/Listen '$port'/' -e "/^#ServerName/c ServerName `hostname`:$port"   httpd.conf