Shell脚本-uniq工具在Linux和Unix系统中，uniq命令是一个非常有用的文本处理工具，用于过滤或报告重复的

在Linux和Unix系统中，uniq命令是一个非常有用的文本处理工具，用于过滤或报告重复的行。它通常与sort命令结合使用，能够帮助用户快速识别并操作文件中的重复数据。本文将详细介绍uniq工具的功能、常见选项及其在Shell脚本中的应用。

一、`uniq`的基本用法

uniq命令的基本语法如下：

uniq [选项]... [输入文件 [输出文件]]

输入文件：要处理的文件名。如果不指定文件，uniq会从标准输入读取数据。
输出文件：可选参数，指定输出结果保存的文件名。

示例1：基本去重

假设有一个名为data.txt的文件，内容如下：

apple
banana
apple
cherry
banana

我们想去除连续的重复行：

uniq data.txt

输出结果将是：

apple
banana
cherry
banana

注意，uniq只会去除相邻的重复行，因此第二个banana不会被去除。为了确保所有重复项都被移除，需要先对文件进行排序。

示例2：结合`sort`使用

为了去除所有重复行，可以将sort与uniq结合使用：

sort data.txt | uniq

这将输出：

apple
banana
cherry

二、常用选项

（一）统计重复次数

使用-c选项可以在每行前显示该行出现的次数：

sort data.txt | uniq -c

输出结果示例：

2 apple
2 banana
1 cherry

（二）仅显示重复行

如果只想查看那些出现多次的行，可以使用-d选项：

sort data.txt | uniq -d

输出结果示例：

apple
banana

（三）仅显示唯一行

相反地，若只关心那些不重复的行，可以使用-u选项：

sort data.txt | uniq -u

输出结果示例：

cherry

（四）忽略大小写

使用-i选项可以忽略字母大小写的差异：

sort data.txt | uniq -i

这对于需要忽略大小写的场景特别有用。

（五）指定字符数比较

默认情况下，uniq基于整行进行比较。如果希望根据前N个字符来判断是否重复，可以使用-w选项：

uniq -w3 data.txt

此命令将根据每行的前三个字符进行比较。

三、高级用法与技巧

（一）结合管道使用

uniq可以与其他命令结合使用，形成强大的文本处理流水线。例如，统计每个单词出现的次数：

cat file.txt | tr ' ' '\n' | sort | uniq -c | sort -nr

该命令首先将所有单词分隔成单独的行，然后排序并统计每个单词的出现次数，最后按次数降序排列。

（二）处理日志文件

假设你有一个Web服务器的日志文件，并希望找出访问次数最多的IP地址：

awk '{print $1}' access.log | sort | uniq -c | sort -nr | head -n 5

此命令提取日志文件中的IP地址，统计每个IP地址的出现次数，并按次数降序排列，最后显示前五个最频繁的IP地址。

（三）批量修改配置文件

有时你需要检查一批配置文件中是否有重复设置。可以通过以下方式实现：

find /etc/myapp -name "*.conf" -exec cat {} + | grep "setting_name" | sort | uniq -cd

该命令查找所有配置文件中包含特定设置的行，去除重复项后列出出现超过一次的设置。

四、在Shell脚本中的应用

uniq是编写自动化任务和数据分析脚本的强大助手。下面是一些实际应用的例子。

示例1：日志分析脚本

创建一个简单的日志分析脚本，统计访问量最高的IP地址：

#!/bin/bash

LOG_FILE="/var/log/access.log"

awk '{print $1}' $LOG_FILE | sort | uniq -c | sort -nr | head -n 5 > top_ips.txt
echo "Top 5 IPs by access count:"
cat top_ips.txt

该脚本提取日志文件中的IP地址，统计每个IP地址的出现次数，并按次数降序排列，最后将结果保存到top_ips.txt文件中并打印出来。

示例2：检查重复文件名

编写一个脚本来检查某个目录下的文件名是否存在重复：

#!/bin/bash

DIRECTORY="/path/to/directory"

find $DIRECTORY -type f -printf "%f\n" | sort | uniq -d > duplicate_filenames.txt

if [ -s duplicate_filenames.txt ]; then
    echo "Duplicate filenames found:"
    cat duplicate_filenames.txt
else
    echo "No duplicates found."
fi

该脚本查找指定目录下的所有文件名，去除重复项后列出存在重复的文件名。

五、结语

感谢您的阅读！如果你有任何疑问或想要分享的经验，请在评论区留言交流！

Shell脚本-uniq工具

一、uniq的基本用法

示例1：基本去重

示例2：结合sort使用

二、常用选项

（一）统计重复次数

（二）仅显示重复行

（三）仅显示唯一行

（四）忽略大小写

（五）指定字符数比较

三、高级用法与技巧

（一）结合管道使用

（二）处理日志文件

（三）批量修改配置文件

四、在Shell脚本中的应用

示例1：日志分析脚本

示例2：检查重复文件名

五、结语

一、`uniq`的基本用法

示例2：结合`sort`使用