【Linux 封神之路】文本处理必学：三剑客（grep/sed/awk）实战指南（附高频命令模板）【Linux 封神之路

【Linux 封神之路】文本处理必学：三剑客（grep/sed/awk）实战指南（附高频命令模板）

大家好，我是专注 Linux 技术分享的小杨。上一篇博客给大家整理了 Linux 开发全流程必备工具清单，后台很多朋友留言说 “文本处理类工具（比如日志分析、配置修改）用得最多，但总记不住命令”。今天就接着上一篇的内容，聚焦 Linux 文本处理 “三剑客”——grep、sed、awk，结合《Linux 常用工具》PDF 核心知识点，从基础用法到实战场景，拆解每款工具的核心技巧，新手直接收藏就能用！

一、先搞懂：为什么 “三剑客” 是 Linux 文本处理的核心？

在 Linux 开发 / 运维中，80% 的文本处理需求（日志分析、配置修改、数据统计）都能靠 grep、sed、awk 解决：

grep：主打 “搜索匹配”，像一把 “文本探测器”，快速从海量文本中定位目标内容；
sed：主打 “编辑修改”，像一把 “流编辑器”，批量替换、删除、插入文本，无需打开文件；
awk：主打 “数据处理”，像一把 “瑞士军刀”，擅长列处理、数值统计、格式化输出，适合结构化数据（比如 CSV、日志）。

这三款工具的核心优势是 “命令行交互 + 批量处理”，比图形化编辑器效率高 10 倍，尤其是处理大型日志文件（几 GB）时，更是无可替代。

二、grep：文本搜索的 “探测器”（基础 + 进阶全掌握）

grep 的核心功能是 “按模式匹配文本行”，小到查找关键字，大到递归搜索整个目录，用法都极其灵活。

1. 基础用法（新手必记）

bash

运行

# 1. 在单个文件中搜索关键字（精确匹配）
grep "ERROR" app.log
# 2. 递归搜索目录下所有文件（比如找项目中所有含"config"的代码）
grep -r "config" ./1src/
# 3. 忽略大小写（匹配"Error"、"ERROR"、"error"）
grep -i "error" app.log
# 4. 显示匹配行的行号（定位日志报错位置超实用）
grep -n "Timeout" app.log
# 5. 显示不匹配的行（过滤掉DEBUG日志，只看有效信息）
grep -v "DEBUG" app.log

2. 进阶技巧（提升效率的关键）

（1）限制搜索文件类型（避免搜二进制文件）

比如只搜索.c和.h文件中的 “init” 关键字，减少无效结果：

bash

运行

grep -r "init" ./ --include="*.c" --include="*.h"

（2）结合正则表达式（精准匹配复杂模式）

正则是 grep 的 “灵魂”，常用模式整理好了：

bash

运行

# 匹配以"WARNING"开头的行（行首匹配）
grep "^WARNING" app.log
# 匹配以"OK"结尾的行（行尾匹配）
grep "OK$" app.log
# 匹配包含数字的行（比如日志中的ID、端口）
grep "[0-9]" app.log
# 匹配邮箱格式（复杂正则示例）
grep -E "\b\w+@\w+.\w+\b" user.txt

注：-E参数表示使用扩展正则表达式，无需对特殊字符转义。

（3）实战场景：日志分析

开发中最常用的场景 —— 从超大日志中快速定位报错：

bash

运行

# 1. 查找近1小时内的ERROR日志（结合时间格式）
grep "2024-10-01 1[4-5]:" app.log | grep -n "ERROR"
# 2. 统计ERROR日志出现的次数（评估问题严重程度）
grep -c "ERROR" app.log
# 3. 找到ERROR日志后，显示前后5行内容（看上下文）
grep -C 5 "ERROR" app.log  # -C=context，前后各5行

三、sed：文本编辑的 “流编辑器”（批量修改不用愁）

sed 全称 “Stream Editor”，核心是 “逐行处理文本流”，支持批量替换、删除、插入，无需打开文件，特别适合自动化脚本。

1. 基础用法（核心是 “模式 + 操作”）

bash

运行

# 1. 替换文本（仅显示结果，不修改原文件）
sed 's/old/new/' config.ini  # 把"old"换成"new"，只替换每行第一个匹配项
# 2. 全局替换（一行中所有匹配项都替换）
sed 's/debug/info/g' app.log  # g=global，全局替换
# 3. 直接修改原文件（谨慎使用！建议先备份）
sed -i 's/port=8080/port=80/' config.ini
# 4. 删除包含指定关键字的行（比如删除注释行）
sed '/^#/d' config.ini  # ^#表示以#开头的行，d=delete
# 5. 在匹配行后插入新内容（比如在[database]后加配置）
sed "/[database]/a username=root" config.ini  # a=append，追加

2. 进阶技巧（安全 + 高效）

（1）安全操作：避免误改文件

直接用-i修改原文件风险高，推荐先测试再修改：

bash

运行

# 1. 先预览修改效果（不改动原文件）
sed 's/old/new/' config.ini > test.ini  # 输出到新文件，验证无误后再替换
# 2. 修改时自动备份原文件（加.bak后缀）
sed -i.bak 's/old/new/' config.ini  # 原文件会变成config.ini.bak

（2）多行处理与条件操作

sed 不仅能处理单行，还能实现复杂的多行逻辑：

bash

运行

# 1. 将两行合并为一行（比如把拆分的日志合并）
sed 'N;s/\n/ /' app.log  # N=读取下一行，s/\n/ /把换行换成空格
# 2. 仅在匹配行中替换（精准修改）
sed '/[server]/s/timeout=30/timeout=60/' config.ini  # 只修改[server]段的timeout
# 3. 替换指定行号的内容（比如修改第10行的端口）
sed '10s/port=80/port=443/' config.ini

（3）实战场景：批量修改代码注释

比如把项目中所有// TODO注释换成// FIXME：

bash

运行

# 递归批量修改所有.c文件中的注释
find ./1src -name "*.c" -exec sed -i.bak 's/// TODO/// FIXME/g' {} +

注：find + sed组合是批量处理多文件的黄金搭档。

四、awk：数据处理的 “瑞士军刀”（列处理 + 统计神器）

awk 擅长处理结构化文本（比如 CSV、空格分隔的日志），核心是 “按字段分割文本”，支持数值计算、条件筛选、统计分析，功能极强。

1. 基础用法（字段分割是核心）

awk 默认以 “空格 / 制表符” 为分隔符，用$1、$2... 表示第 1 列、第 2 列（$0表示整行）：

bash

运行

# 1. 打印第1列和第3列（比如查看日志中的IP和请求路径）
awk '{print $1, $3}' access.log
# 2. 按自定义分隔符分割（比如处理CSV文件，逗号分隔）
awk -F ',' '{print $2, $4}' data.csv  # -F=field separator，分隔符为逗号
# 3. 按条件筛选行（比如只显示第3列大于100的行）
awk '$3 > 100 {print $0}' score.txt
# 4. 统计求和（比如统计所有用户的积分总和）
awk '{sum += $2} END {print "总积分:", sum}' user_score.txt

2. 进阶技巧（内置变量 + 函数）

（1）常用内置变量（提升灵活性）

awk 有很多实用内置变量，记住这几个就够了：

NF：当前行的字段总数（比如NF==4表示该行有 4 列）；
NR：当前行号（比如NR>10表示处理第 10 行之后的内容）；
FS：字段分隔符（等价于-F参数）；
OFS：输出字段分隔符（控制打印时的分隔符）。

示例：格式化输出 CSV 数据，用空格替换逗号：

bash

运行

awk -F ',' 'BEGIN {OFS=" "} {print $1, $2, $3}' data.csv

注：BEGIN块中的代码在处理文本前执行，用于初始化。

（2）内置函数：增强处理能力

awk 支持字符串处理、数值计算等函数，常用的有：

bash

运行

# 1. 计算字段长度（比如筛选出用户名长度大于6的用户）
awk -F ',' 'length($1) > 6 {print $1}' user.txt
# 2. 截取字符串（比如取第1列的前3个字符）
awk '{print substr($1, 1, 3)}' data.txt  # substr(字符串, 起始位置, 长度)
# 3. 替换字符串（在awk内部替换）
awk '{gsub(/error/, "ERROR"); print $0}' app.log  # gsub=全局替换

（3）实战场景：统计访问日志

运维中高频场景 —— 分析 Nginx 访问日志，统计每个 IP 的访问次数：

bash

运行

# 日志格式：IP  时间  请求方法  路径 ...
awk '{ip[$1]++} END {for (i in ip) print i, ip[i]}' access.log | sort -nrk2

解析：

ip[$1]++：用 IP 作为数组下标，每出现一次就计数 + 1；
END块：所有文本处理完后执行，循环打印 IP 和访问次数；
sort -nrk2：按访问次数（第 2 列）逆序排序，找出访问量最高的 IP。

五、三剑客组合技：1+1+1>3

单独用三剑客已经很强，组合起来更是能解决复杂问题，核心思路是 “管道符（|）传递结果”。

实战组合场景

1. 日志分析全流程

从 Nginx 日志中找出 “访问量最高的前 3 个 IP，且只看 ERROR 请求”：

bash

运行

grep "ERROR" access.log | awk '{print $1}' | sort | uniq -c | sort -nrk1 | head -3

步骤拆解：

grep "ERROR"：筛选出所有 ERROR 请求日志；
awk '{print $1}'：提取日志中的 IP（第 1 列）；
sort：对 IP 排序（方便后续去重）；
uniq -c：统计每个 IP 出现的次数（去重并计数）；
sort -nrk1：按计数逆序排序；
head -3：取前 3 个 IP。

2. 配置文件批量修改 + 验证

批量修改所有服务的超时时间，并验证修改结果：

bash

运行

sed -i.bak '/timeout/s/30/60/g' ./conf/*.ini && grep "timeout=60" ./conf/*.ini

步骤拆解：

sed -i.bak ...：批量修改所有.ini 文件中的 timeout 为 60，备份原文件；
&&：前面命令执行成功后，执行后面的验证命令；
grep "timeout=60"：检查修改后的结果是否正确。

六、避坑指南：三剑客常见错误

grep 搜索不到内容，但内容确实存在：
- 原因：大小写不匹配，或包含特殊字符（比如.、*）未转义；
- 解决：加-i忽略大小写，特殊字符用``转义（比如搜索192.168.1.1需写成192.168.1.1）。
sed 修改后乱码或文件损坏：
- 原因：直接用-i修改二进制文件，或编码不匹配；
- 解决：先通过file命令判断文件类型（文本 / 二进制），仅对文本文件使用 sed；修改前备份。
awk 字段分割错误（$1 不是想要的列） ：
- 原因：分隔符不是默认的空格 / 制表符（比如是逗号、冒号）；
- 解决：用-F指定分隔符，比如awk -F ':' '{print $1}' /etc/passwd。

七、总结：三剑客学习路线（从入门到精通）

不用一开始就记所有命令，按以下路线循序渐进：

基础阶段（1 周）：掌握 grep 基础搜索、sed 基础替换、awk 基础列处理；
进阶阶段（2 周）：学习正则表达式、sed 批量修改、awk 数组与统计；
精通阶段（1 个月）：练习三剑客组合使用，结合 shell 脚本实现自动化（比如日志分析脚本、配置批量修改脚本）。

记住：三剑客的核心是 “解决实际问题”，平时多在工作中练习（比如用 grep 查日志、用 sed 改配置），慢慢就会熟练。

下一篇博客，我会给大家整理 “Linux 系统监控与性能分析工具”（比如 top、htop、perf），解决 “服务器卡慢、程序崩溃” 等问题。如果需要某款工具的详细教程，欢迎在评论区留言！