awk
通过文本模式(匹配字符串)过滤出行
awk '/搜索字符/' score.txt #从score.txt 搜索含有 "搜索字符"的行
[root@node01 ~]# awk '/zhangsan|lisi/' score.data
zhangsan 85 90 100
lisi 65 70 95
按字段(列)输出内容
awk -F '分隔符' '{print $1, $2, $3}'
按照指定分隔符分割文件中每行,并打印第一、二、三列
-F 选项的作用是指定分隔符。如果不加 -F 选项,则以空格或者 tab 为分隔符。
print 为打印的动作,用来打印某个字段。$1 为第 1 个字段,$2 为第 2 个字段,以此类推。
但 $0 比较特殊,它表示整行
使用NR指定行号
NR表示当前处理的行的行号(序数)
1、打印1到3行。逗号表示连续的行内容。&&表示”且“。
[root@yuji ~]# awk 'NR==1,NR==3 {print $0}' ff.txt //打印1到3行
one
two
three
[root@yuji ~]# awk '(NR>=1)&&(NR<=3) {print}' ff.txt
one
two
three
awk 常见的内置变量
- FS :指定每行文本的字段分隔符,默认为空格或制表符(tab)。与 “-F”作用相同 -v "FS=:"
- OFS:输出时的分隔符
- NF:当前处理的行的字段个数
- NR:当前处理的行的行号(序数)
- $0:当前处理的行的整行内容
- $n:当前处理行的第n个字段(第n列)
- FILENAME:被处理的文件名
- RS:行分隔符。awk从文件上读取资料时,将根据RS的定义就把资料切割成许多条记录,而awk一次仅读入一条记录进行处理。预设值是\n
使用if语句
使用if语句时,内部条件要加( ),外面要加{ }。
将{ }整条语句当作一个操作命令,相当于嵌套。
[root@localhost ~]#awk -F: '{if($3>1000)print $1,$3}' /etc/passwd
nfsnobody 65534
mysql 1001
lisi 1002
liwu 1003
[root@localhost ~]#awk -F: '{if($3>1000){print $1,$3}else{print $3}}' /etc/passwd
/pat1/,/pat2/ #正则表达式1 到正则表达式2 之间的行
$NF //代表最后一个字段 ~ 表示包含,!~ 表示不包含,== 表示等于,!= 表示不等于
$n> < == //用于对比数值
$n~"字符串" //代表第n个字段 包含 某个字符串的作用
$n!~"字符串" //代表第n个字段 不包含 某个字符串的作用
$n=="字符串" //代表第n个字段 为 某个字符串的作用
$n!="字符串" //代表第n个字段 不为 某个字符串的作用
BEGIN模式
格式:
awk 'BEGIN{...};{...};END{...}' 文件
#处理过程:
1、在awk处理指定的文本之前,需要先执行BEGIN{...}模式里的命令操作;
2、中间的{...} 是真正用于处理文件的命令操作;
3、在awk处理完文件后才会执行END{...}模式里的命令操作。END{ }语句块中,往往会放入打印结果等语句。
示例:
统计以bash结尾的行。
- BEGIN是处理文件之前进行的操作,END是处理文件之后进行的操作。
- /bash$/ 是需要满足的条件。
- BEGIN语块中先指定一个变量x=0;之后处理文件、每检索出一次以bash结尾的行,就执行x=x+1;最后执行END语块中的命令,打印x的值。
[root@yuji ~]# awk '/bash$/{print}' pass.txt
root:x:0:0:root:/root:/bin/bash
yuji2:x:1000:1000:yuji2:/home/yuji2:/bin/bash
nancy:x:1021:1021::/home/nancy:/bin/bash
helen:x:1022:1022::/home/helen:/bin/bash
[root@yuji ~]# awk 'BEGIN{x=0};/bash$/{x++};END{print x}' pass.txt
4
案例
通过分析日志 /var/log/secure 查看哪些主机在暴力破解本机服务,如果统计出密码验证失败超过三次(不考虑连续性),就把IP加入到黑名单中 /etc/hosts.deny。
方法一:
#过滤出包含“Failed password”的行,打印第11个字段,且按照数字排序
[root@yuji ~]# awk '/Failed password/{print $11}' /var/log/secure |sort -n
192.168.72.10
192.168.72.10
192.168.72.10
192.168.72.10
192.168.72.192
192.168.72.192
192.168.72.192
#统计重复行出现的次数
[root@yuji ~]# awk '/Failed password/{print $11}' /var/log/secure |sort -n |uniq -c
4 192.168.72.10
3 192.168.72.192
#判断重复的次数如果大于3次,则在IP前加上"sshd:",并将其追加进/etc/hosts.deny文件中
[root@yuji ~]# awk '/Failed password/{print $11}' /var/log/secure |sort -n |uniq -c| awk '$1>3 {print "sshd:"$2}' >>/etc/hosts.deny
#查看etc/hosts.deny文件
[root@yuji ~]# cat /etc/hosts.deny
#
# hosts.deny This file contains access rules which are used to
# deny connections to network services that either use
# the tcp_wrappers library or that have been
# started through a tcp_wrappers-enabled xinetd.
#
# The rules in this file can also be set up in
# /etc/hosts.allow with a 'deny' option instead.
#
# See 'man 5 hosts_options' and 'man 5 hosts_access'
# for information on rule syntax.
# See 'man tcpd' for information on tcp_wrappers
#
sshd:192.168.72.10
正则表达式
正则表达式被很多程序和开发语言所广泛支持:vim, less,grep,sed,awk, nginx,mysql 等
主要用来匹配字符串(命令结果,文本内容),必须加双引号
通配符匹配文件(而且是已存在的文件)
元字符(字符匹配)
. 匹配任意单个字符,可以是一个汉字
[] 匹配指定范围内的任意单个字符,示例: [0-9] [A-Z]
[^] ^在括号内表示取反。即匹配括号内字符以外的任意一个字符,只能匹配单个字符
[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:] 小写字母,示例:[[:lower:]],相当于[a-z]
[:upper:] 大写字母
[:blank:] 空白字符(空格和制表符)
[:space:] 包括空格、制表符(水平和垂直)、换行符、回车符等各种类型的空白,比[:blank:]包含的范围
广
[:cntrl:] 不可打印的控制字符(退格、删除、警铃...)
[:digit:] 十进制数字
[:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号
位置锚定
^ #行首锚定, 用于模式的最左侧
$ #行尾锚定,用于模式的最右侧
^PATTERN$ #用于模式匹配整行 (单独一行 只有root)
^$ #空行
^[[:space:]]*$ # 空白行
\< 或 \b #词首锚定,用于单词模式的左侧(连续的数字,字母,下划线都算单词内部)
\> 或 \b #词尾锚定,用于单词模式的右侧
表示次数
* #匹配前面的字符任意次,包括0次,贪婪模式:尽可能长的匹配
.* #任意长度的任意字符,不包括0次
\? #匹配其前面的字符出现0次或1次,即:可有可无
\+ #匹配其前面的字符出现最少1次,即:肯定有且 >=1 次
\{n\} #匹配前面的字符n次
\{m,n\} #匹配前面的字符至少m次,至多n次
\{,n\} #匹配前面的字符至多n次,<=n
\{n,\} #匹配前面的字符至少n次
ifconfig ens33|grep netmask|grep -o '[0-9]\+\.[0-9]\+\.[0-9]\+\.[0-9]\+'|head -n1
ifconfig ens33|grep netmask|grep -o '[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}'|head -n1
分组或其他
分组:\( ..\) 将多个字符捆绑在一起
或者:\|
[root@localhost ~]#echo abccc |grep "abc\{3\}"
abccc
[root@localhost ~]#echo abcabcabc |grep "\(abc\)\{3\}"
#分组 匹配abc
abcabcabc
[root@localhost ~]#echo 1abc |grep "1\|2abc"
#只匹配了1
1abc
[root@localhost ~]#echo 1abc |grep "\(1\|2\)abc"
#1abc或者2abc
1abc
[root@localhost ~]#ifconfig ens33|grep netmask|grep -o '\([0-9]\{1,3\}\.\)\{3\}[0-9]\{3\}'|head -1
192.168.91.100
扩展正则表达式(表示字符相差不大)
grep -E
egrep
表示次数
* 匹配前面字符任意次
? 0或1次
+ 1次或多次
{n} 匹配n次
{m,n} 至少m,至多n次
{,n} #匹配前面的字符至多n次,<=n,n可以为0
{n,} #匹配前面的字符至少n次,<=n,n可以为0
表示分组
() 分组
分组:() 将多个字符捆绑在一起,当作一个整体处理,如:(root)+
后向引用:\1, \2, ...
| 或者
a|b #a或b
C|cat #C或cat
(C|c)at #Cat或cat
sed
sed的工作流程
sed的工作流程主要包括读取、执行和显示三个过程:
- 读取: sed从输入流 (文件、管道、标准输入) 中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space )。
- 执行: 默认情况下,所有的sed命令都在模式空间中顺序地执行,除非指定了行的地址,否则sed命令将会在所有的行上依次执行。
- 显示: 发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。在所有的文件内容都被处理完成之前,上述过程将重复执行, 直至所有内容被处理完。
在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。
注意:默认情况下所有的sed命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,除非使用"sed -i"修改源文件、或使用重定向输出到新的文件中。
sed格式
sed [option]... 'script;script;...' [input file...]
选项 脚本语法(地址+命令) 支持标准输入管道
常用选项
| 选项 | 作用 |
|---|---|
| -e 或--expression= | 表示用指定命令来处理输入的文本文件,只有一个操作命令时可省略,一般在执行多个操作命令使用 |
| -f 或--file= | 表示用指定的脚本文件来处理输入的文本文件 |
| -h 或--help | 显示帮助 |
| -n、--quiet或--silent | 禁止sed编辑器输出,关闭自动打印功能 |
| -i | 直接修改目标文本文件 |
| -i.bak | 备份文件并原处编辑 |
| -r, -E | 使用扩展正则表达式 在 使用{n}、{n,}、{n,m}时,括号{}前不需要加反斜杠\ |
执行多条命令的三种方法:
sed -n -e '操作1' -e '操作2' 文件
sed -n -e '操作1;操作2' 文件
sed -e 'n{
操作1
操作2
......
}' 文件1
地址
1. 不给地址:对全文进行处理(比如行号)
2. 单地址:
#:指定的行,$:最后一行
/pattern/:被此处模式所能够匹配到的每一行,正则表达式
3. 地址范围:
#,# #从#行到第#行,3,6 从第3行到第6行
#,+# #从#行到+#行,3,+4 表示从3行到第7行
/pat1/,/pat2/ 第一个正则表达式和第二个正则表达式之间的行
#,/pat/ 从#号行为开始找到 pat为止
/pat/,# 找到#号个pat为止
4. 步进:~
1~2 奇数行
2~2 偶数行
常用操作命令
| 操作 | 作用 |
|---|---|
| s | 替换,替换指定字符 |
| d | 删除,删除选定的行 |
| a | 增加,在当前行下方增加一行指定内容 支持使用\n实现多行追加 |
| i | 插入,在选定行上方插入一行指定内容 |
| c | 替换,将选定行替换为指定内容 |
| y | 字符转换,转换前后的字符长度必须相同 |
| p | 打印行内容。如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以ASCII码输出。其通常与"-n"选项一起使用 |
| = | 打印行号 |
| l (小写L) | 打印数据流中的文本和不可打印的ASCII字符(比如结束符$、制表符\t) |
| w file | 保存模式匹配的行至指定文件 |
| r file | 读取指定文件的文本至选定的行后 |
| = | 为模式空间中的行打印行号 |
| ! | 模式空间中匹配行取反处理 |
p
[root@localhost ~]#sed -n '/root/p' /etc/passwd
##将包含root的行打印出来 /root(需要匹配的内容)/p(打印) 文件名
###与 grep root /etc/passwd 功能相同
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[root@localhost ~]#sed -n '/^b/,/^f/p' /etc/passwd //显示b开头 和f开头中间的行
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
[root@localhost ~]#sed -n '/2018:08:09/,/2018:09:42:37/p' access_log //让你查找几点几分到几点几分之间的日志
搜索替代s
行范围 s/旧字符串/新字符串/替换标记
#4种替换标记:
数字:表明新字符串将替换第几处匹配的地方
g:表面新字符串将会替换所有匹配的地方
p:打印与替换命令匹配的行,与-n一起使用
w 文件:将替换的结果写入文件中
[root@yuji ~]# echo 000010101 | sed 's/^0*//' //删除开头所有的0 10101
[root@yuji ~]# sed -n '/^root/ s/^/#/p' pass.txt //过滤出以root开头的行,在行首加上# 、#root:x:0:0:root:/root:/bin/bash
#operator:x:11:0:operator:/root:/sbin/nologin
[root@yuji ~]# sed -n 's/.*root.*/#&/p' pass.txt #root:x:0:0:root:/root:/bin/bash //过滤出以root开头的行,在行首加上#
#root:x:0:0:root:/root:/bin/bash
#operator:x:11:0:operator:/root:/sbin/nologin
**指定分隔符**
当字符串中包含"/"时,需要在前面加上转义符\,避免和分隔符"/"混淆。这样操作非常麻烦,且容易眼花看错,此时可以自己指定分隔符。
s后面的第一个字符就是分隔符,3个分隔符要保持一致,如果遇到跟分隔符相同的字符需要使用 \ 转义成普通字符。
#默认分隔符为"/"
[root@yuji ~]# sed -n 's//bin/bash//sbin/nologin/p' pass.txt
root:x:0:0:root:/root:/sbin/nologin
yuji2:x:1000:1000:yuji2:/home/yuji2:/sbin/nologin
nancy:x:1021:1021::/home/nancy:/sbin/nologin
helen:x:1022:1022::/home/helen:/sbin/nologin
#指定#作为分割符
[root@yuji ~]# sed -n 's#/bin/bash#/sbin/nologin#p' pass.txt
root:x:0:0:root:/root:/sbin/nologin
yuji2:x:1000:1000:yuji2:/home/yuji2:/sbin/nologin
nancy:x:1021:1021::/home/nancy:/sbin/nologin
helen:x:1022:1022::/home/helen:/sbin/nologin
分组
[root@localhost ~]#echo 123abcxyz |sed -r 's/(123)(abc)(xyz)/\1/'
##分组 s//代表查找替换 ()代表分组 \1 代表留下的组
123
[root@localhost ~]#echo 123xyzabc |sed -r 's/(123)(xyz)(abc)/\2\1/'
xyz123 //字符串互换
[root@localhost ~]#ifconfig ens33|sed -rn '2s/.*inet ([0-9.]+) .*/\1/p'
192.168.91.100
变量
[root@www data]#name=root
[root@www data]#sed -nr "/$name/p" /etc/passwd //涉及变量要用双引号
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[root@www data]#sed -nr '/'$name'/p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[root@www data]#port=8080
[root@www data]#sed -ri 's/^Listen 80/Listen '$port'/' httpd.conf
[root@www data]#sed -ri -e 's/^Listen 80/Listen '$port'/' -e "/^#ServerName/c ServerName `hostname`:$port" httpd.conf