文本处理常用七大命令

165 阅读3分钟

1. sort命令

以行为单位对文件内容进行排序,也可以根据不同的数据类型来排序

比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。

  • 语法格式

sort [选项] 参数

cat file | sort选项

  • 常用选项
选项说明
n按照数字进行排序
r反向排序
u等同于uniq, 表示相同的数据仅显示一行
t指定字段分隔符,默认使用[Tab]键分隔
k指定排序字段
o<输出文件>将排序后的结果转存至指定文件
f忽略大小写,会将小写字母都转换为大写字母来进行比较
b忽略每行前面的空格

1.1 示例

  • 查看需排序文件
root@localhost ze]# cat 1.txt

image.png

  • 不加任何选项
[root@localhost ze]# sort 1.txt

image.png

  • -n按照数字进行排序
[root@localhost ze]# sort -n 1.txt

image.png

  • -r反向排序
[root@localhost ~]# sort -n -r testfile2

image.png

  • -u相同的数据仅显示一行
[root@localhost ~]# sort -n -r -u testfile2

image.png

[root@localhost ~]# sort -t ":" -k 3 -n /etc/passwd

image.png

2. uniq命令

用于报告或者忽略文件中连续的重复行,常与sort 命令结合使用

  • 语法格式

uniq [选项] 参数 cat file | uniq选项

  • 常用选项
选项说明
c显示连续重复行出现的次数,并合并重复行。
d仅显示连续的重复行
u显示仅出现过一次的行(但包括不连续的重复行)
  • 不加任何选项
[root@localhost ~]# uniq testfile3 

image.png

  • -c显示连续重复行出现的次数,并合并重复行。
[root@localhost ~]# uniq -c testfile3

image.png

[root@localhost ~]# uniq -d testfile3

image.png

  • -u显示仅出现过一次的行(但包括不连续的重复行)
[root@localhost ~]# uniq -u testfile3

image.png

3. tr命令

常用来对来自标准输入的字符进行替换、压缩和删除

  • 语法格式

tr [选项] [参数]

  • 常用选项
选项说明
c保留字符集1的字符,其他的字符(包括换行符\n)用字符集2替换
d删除所有属于字符集1的字符
s将重复出现的字符串压缩为一一个字符:用字符集2替换字符集1
t字符集2替换字符集1,不加选项同结果。
  • 参数
  1. 字符集1:指定要转换或删除的原字符集。当执行转换操作时,必须使用参数“字符集2”指定转换的日标字符集。但执行删除操作时,不需要参数“字符集2"

  2. 字符集2:指定要转换成的目标字符集。

  • 示例1
[root@localhost ~]# echo abc | tr 'a-z' 'A-Z'
[root@localhost ~]# echo abc | tr 'b' 'B'
[root@localhost ~]# echo abc | tr -t 'a' 'A'
[root@localhost ~]# echo "192.168.100.100" | tr '.' ' '

image.png

  • 示例2
[root@localhost ~]# echo abc | tr "abc" "123"
[root@localhost ~]# echo abc | tr "ab" "123"
[root@localhost ~]# echo abc | tr "abc" "12"

image.png

  • 示例3
[root@localhost ~]# echo -e "abc\ndef"
[root@localhost ~]# echo -e "abc\ndef" | tr -c 

image.png

  • 示例4
[root@localhost ~]# echo "abcabc" | tr -d "a"

image.png

  • 示例5
[root@localhost ~]# echo "aaabc" | tr -s "a"

image.png

  • 使用tr命令,将冒号(":")替换为换行符("\n")
[root@localhost ~]# echo $PATH | tr ":" "\n"

image.png

  • 过滤出文件中的非空行
[root@localhost 1]# cat 1.txt| tr -s "\n"

image.png

4. cut命令

显示行中的指定部分,删除文件中指定字段

  • 语法格式

cat file | cut [选项] 参数

  • 常用选项
选项说明
f通过指定哪一个字段进行提取。cut命令使用"TAB"作为默认的字段分隔符。
d"TAB"是默认的分隔符,使用此选项可以更改为其他的分隔符。
--complement此选项用于排除所指定的字段。
--output-delimiter更改输出内容的分隔符。
  • f通过指定哪一个字段进行提取
[root@localhost 1]# cut -f 1 2.txt

image.png

  • d"TAB"是默认的分隔符
[root@localhost 1]# cut -d ":" -f 2 /etc/passwd

image.png

  • --complement用于排除所指定的字段
[root@localhost 1]# cut --complement -f 2 2.txt

image.png

  • --output-delimiter更改输出内容的分隔符
[root@localhost 1]# head /etc/passwd | cut -d ":" -f 1-2 --output-delimiter=' '

image.png

5. split命令

linux下将一个大的文件拆分成若干小文件

  • 语法格式

split [选项] 参数 原始文件 拆分后文件名前缀

  • 常用选项
选项说明
l以行数拆分
b以大小拆分
  • l以行数拆分
[root@localhost test]# split -l 2 1.txt num

image.png

6. paste命令

用于合并文件的列

  • 语法格式

paste [-s] [-d <间隔字符>]文件...

  • 常用选项
选项说明
d<间隔字符>用指定的间隔字符取代制表符
s把多行内容合并为一行进行显示
  • d指定的间隔字符取代制表符
[root@localhost 1]# paste -d "=" 1.txt 2.txt

image.png

  • s把多行内容合并为一行进行显示
[root@localhost 1]# paste -s 1.txt 2.txt

image.png

7. eval命令

命令字前加上eval时,shell会在执行命令之前扫描它两次。eval命令将首先会先扫描命令行进行所有的置换,然后再执行该命令。该命令适用于那些一次扫描无法实现其功能的变量。该命令对变量进行两次扫描。

  • 示例
[root@localhost ~]# a="ls /"
[root@localhost ~]# echo $a
[root@localhost ~]# eval $a

image.png