引导过程与服务控制(超详细的排障图解)

397 阅读14分钟

1、Linux操作系统引导过程

1.1 引导过程总览

linux引导过程一般包括以下几个阶段: 开机自检 、 MBR 引导 、GRUB 菜单 、加载Linux内核 、 init 进程初始化 。

微信图片_20220228145204.png

1.1.1 开机自检

服务器主机开机以后,将根据主板 BIOS 中的设置对 CPU(Central Processing Unit, 中央处理器)、内存、显卡、键盘等设备进行初步检测,检测成功后根据预设的启动顺序移交系统控制权,大多时候会移交给本机硬盘。

1.1.2 MBR引导

当从本机硬盘中启动系统时,首先根据硬盘第一个扇区中 MBR(Master Boot Record, 主引导记录)的设置,将系统控制权传递给包含操作系统引导文件的分区;或者直接根据 MBR 记录中的引导信息调用启动菜单(如 GRUB)。 总结:运行放在MBR扇区里的启动菜单GRUB引导程序。

1.1.3 GRUB菜单

对于 Linux 操作系统来说,GRUB(GRand Unified Bootloader,统一启动加载器)是使用最为广泛的多系统引导器程序。系统控制权传递给 GRUB 以后,将会显示启动菜单给用户选择,并根据所选项(或采用默认值)加载 Linux 内核文件,然后将系统控制权转交给内核。需要注意的是,CentOS 7 采用的是 GRUB2 启动引导器。 总结:GRUB引导程序通过读取GRUB配置文件/boot/grub2/grub.cfg,来获取内核和镜像文件系统的设置和路径位置。 (即选择内核文件和系统类型)

1.1.4 加载Linux内核

Linux 内核是一个预先编译好的特殊二进制文件,介于各种硬件资源与系统程序之间, 负责资源分配与调度。内核接过系统控制权以后,将完全掌控整个 Linux 操作系统的运行过 程。在 CentOS 系统中,默认的内核文件位于“/boot/vmlinuz-3.10.0-514.el7.x86_64”。 总结:把内核和镜像文件系统加载到内存中,使其可以使用。

1.1.5 init进程初始化

为了完成进一步的系统引导过程,Linux内核首先将系统中的“/sbin/init”程序加载到内存中运行(运行中的程序称为进程),init 进程负责完成一系列的系统初始化过程,最后等待用户进行登录。CentOS 7 采用的是 Systemd 启动方式。 总结:加载硬件驱动程序,内核把init进程加载到内存中运行。

1.2 系统初始化进程(init和Systemd介绍)

1.2.1 init进程

  • 由Linux内核加载运行/sbin/init 程序;
  • init进程是系统中第一个进程;
  • init进程的PID(进程标记)号永远为1。

1.2.2 Systemd进程

  • Systemd是Linux操作系统中的一种init软件;
  • CentOS7中采用全新的Systemd启动方式,取代传统的SysVinit;
  • CentOS7中运行的第一个init进程是/lib/systemd/systemd

使用 pstree 命令可以查看系统中的所有进程,可以看出systemd是所有进程的父进程。

微信图片_20220228163816.png

使用 ps 命令可以查看所有进程的PID,可看出systemd的进程号始终为1。

微信图片_20220228164729.png

1.2.3 传统init和systemd比较

  • 传统init依赖于串行执行Shell 脚本启动服务,导致效率低下,系统启动速度较慢。

  • Systemd能够将更多的服务进程并行启动,并且具有提供按需启动服务的能力,使得启动更少进程,从而提高系统启动速度 。

1.3 Systemd 单元类型

在Systemd中不同类型的systemd对象被统一称为单元(unit),是让系统知道该如何进行操作和管理资源的主要对象,所以systemd有许多单元类型。 Systemd单元文件最初默认存放在/lib/systemd/system目录中,每当安装新的软件都会自动在这个目录中添加一个配置文件。通过配置文件进行标识和配置不同单元;文件中主要包含了系统服务、监听。

单元类型扩展名说明
Service.service描述一个系统服务
Socket.socket描述一个进程间通信的套接字
Device.device描述一个内核识别的设备文件
Mount.mount描述一个文件系统的挂载点
Automount.automount描述一个文件系统的自动挂载点
Swap.swap描述一个内存交换设备或交换文件
Path.path描述一个文件系统中文件或目录
Timer.timer描述一个定时器(用于实现类似cron的调度任务)
Snapshot.snapshot用于保存一个systemd的状态
Scope.scope使用systemd的总线接口以编程的方式创建外部进程
Slice.slice描述居于Cgroup的一组通过层次组织的管理系统进程
Target.target描述一组systemd的单元

systemctl 命令用于管理各种类型的systemd单元,可以使用 “systemctl -t help” 命令来查询systemd支持的单元类型。

 [root@localhost ~]# systemctl -t help
 Available unit types:
 service
 socket
 busname
 target
 snapshot
 device
 mount
 automount
 swap
 timer
 path
 slice
 scope

微信图片_20220228165537.png

使用“ls /lib/systemd/system”可以查看系统中所有的单元文件。(图片中只是其中一部分)

微信图片_20220228175520.png

1.4 运行级别所对应的 Systemd 目标

运行级别systemd的target说明
0target关机状态,使用该级别时将会关闭主机
1rescue.target单用户模式,不需要密码验证即可登录系统,多用于系统维护
2rescue.target用户定义/域特定运行级别。默认等同于3
3multi-user.target字符界面的完整多用户模式,大多数服务器主机运行在此级别
4multi-user.target用户定义/域特定运行级别。默认等同于3
5graphical.target图形界面的多用户模式,提供了图形桌面操作环境
6reboot.target重新启动,使用该级别时将会重启主机

2、排除启动类故障

2.1 修复MBR扇区故障

2.1.1 故障原因和解决思路

故障原因

  • 病毒、木马的等造成的破坏;
  • 不正确的分区操作、磁盘读写误操作等。

故障现象

  • 找不到引导程序,启动中断;
  • 无法加载操作系统,开机后黑屏。

解决思路:

  • 提前添加一块新硬盘;
  • 提前做好备份文件(将MBR扇区备份到另一块硬盘上);
  • 以安装光盘引导进入急救模式;
  • 从备份文件中恢复。

MBR扇区:

第一块硬盘的第一个物理扇区共512字节,其中前446字节为MBR(主引导记录),后64字节为硬盘分区表,最后2字节为硬盘标识。

备份命令:

 mkdir /data/aa
 mount /dev/sdb1 /data/aa
 dd if=/dev/sda  of=/data/aa/mbr.bak  count=512  bs=1

在光盘中恢复MBR扇区命令:

 sh-4.2# mkdir /backup
 sh-4.2# mount /dev/sdb1 /data/backup
 sh-4.2# dd if=/backup/mbr.bak  of=/dev/sda  count=512  bs=1

2.1.2 案例演示1(将MBR扇区备份到另一块硬盘)

1)提前添加一块新硬盘,将MBR扇区备份到新硬盘中。

提前添加好新硬/dev/sdb,设置分区sdb1,将sdb1挂载到/data/aa目录下,之后将/dev/sda的MBR扇区备份到/data/aa目录下。

因之前已添加新硬盘并分区,此处不再演示。

 [root@localhost ~]# mount /dev/sdb1 /data/aa    //将sdb1挂载到/data/aa目录下
 [root@localhost ~]# dd if=/dev/sda of=/data/aa/mbr.bak bs=512 count=1  //将MBR扇区备份到/dev/sdb1 中
 记录了1+0 的读入
 记录了1+0 的写出
 512字节(512 B)已复制,0.000181506 秒,2.8 MB/秒
 [root@localhost ~]# ls /data/aa
 mbr.bak

微信图片_20220228175523.png

2)破坏MBR分区表,模拟扇区故障。

先查看正常的MBR扇区,之后使用空字符串覆盖掉MBR扇区内容(即/dev/sda的前512字节),再查看破坏后的MBR扇区。最后进行重启,查看能否正常启动。

 [root@localhost ~]# hexdump -C -n 512 /dev/sda      //查看/dev/sda的前512字节
 ​
 [root@localhost ~]# dd if=/dev/zero of=/dev/sda bs=512 count=1     //使用空字符串覆盖掉前512字节
 记录了1+0 的读入
 记录了1+0 的写出
 512字节(512 B)已复制,0.000149214 秒,3.4 MB/秒
 [root@localhost ~]# hexdump -C -n 512 /dev/sda      //查看破坏后的MBR扇区
 00000000  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |................|
 *
 00000200
 [root@localhost ~]# reboot     //重启系统,观察能否正常启动

微信图片_20220228175526.png

微信图片_20220301001004.png

3)重启观察故障情况。因为第一块硬盘的引导程序被破坏,系统自动改用光盘启动。选择Troubleshooting,之后选择rescue mode(急救模式),使用备份文件恢复MBR扇区。

  • 重启发生故障,无法正常启动。

微信图片_20220228183308.png

  • 选择 troubleshooting ,然后选择“Rescue a CentOS system”(急救模式),从备份文件中恢复MBR扇区,最后重新启动。

微信图片_20220301001138.png

微信图片_20220228184616.png

微信图片_20220301001252.png

微信图片_20220228190858.png

微信图片_20220228191357.png

2.2 修复GRUB引导故障

2.2.1 故障原因和解决思路

故障原因:

  • MBR中的GRUB引导程序遭到破坏
  • grub.cfg 文件丢失、引导配置有误

故障现象:

  • 系统引导停滞,显示“grup>” 提示符

解决思路:

  • 尝试手动输入引导命令(笨拙繁琐,不建议使用)
  • 提前备份文件,恢复MBR扇区中的grub引导程序
  • 进入急救模式,重写或者从备份中恢复grub.cfg 文件

2.2.2 案例演示1(恢复MBR扇区中的grub引导程序)

改用光盘启动,进入急救模式,从备份中恢复grub引导程序(/dev/sda的前446个字节)。

MBR位于第一块硬盘(/dev/sda)的第一个物理扇区处,总共512字节,前446字节是主引导记录,分区表保存在NBRA扇区中的第447-510字节中。

1)先备份MBR扇区的前446个字节。

 [root@localhost ~]# mount /dev/sdb1 /data/aa    //将sdb1挂载到/data/aa目录下
 [root@localhost ~]# dd if=/dev/sda of=/data/aa/grub.bak bs=446 count=1     //将MBR扇区的前446个字节备份到/dev/sdb1中
 记录了1+0 的读入
 记录了1+0 的写出
 446字节(446 B)已复制,0.000140753 秒,3.2 MB/秒
 [root@localhost ~]# ls /data/aa
 grub.bak  mbr.bak

微信图片_20220228201812.png

2)模拟对MRB中的GRUB引导程序的破坏,但并不破坏分区表。

#使用空字符串破坏前446个字节(即主引导记录)
 [root@localhost ~]# dd if=/dev/zero of=/dev/sda bs=446 count=1      
 记录了1+0 的读入
 记录了1+0 的写出
 446字节(446 B)已复制,0.000168803 秒,2.6 MB/秒
 [root@localhost ~]# reboot     //重启,观察故障情况

微信图片_20220228202105.png

3)重启发生故障。进入急救模式,从备份中恢复grub引导程序。

微信图片_20220301001138.png

微信图片_20220228184616.png

1646052179413.png

微信图片_20220228204835.png

2.2.2 案例演示2(重建grub.cfg 文件)

引导界面进入急救模式,重建GRUB菜单配置文件。

主要命令:

 chroot /mnt/sysimage     
 #进入急救模式后,加载光盘镜像,切换到光驱系统的根环境
 ​
 grub2-install /dev/sda    
 #重新将GRUB引导程序安装到第一块硬盘(dev/sda)的MBR扇区
 ​
 grub2-mkconfig -o /boot/grub2/grub.cfg    
 #重新构建GRUB菜单配置文件

演示步骤:

1)模拟删除grub.cfg文件。

 [root@localhost ~]# cd /boot/grub2     //切换到/boot/grub2目录
 [root@localhost grub2]# ls             //查看目录内的文件,有grub.cfg文件
 device.map  fonts  grub.cfg  grubenv  i386-pc  locale
 [root@localhost grub2]# rm -rf /boot/grub2/grub.cfg    //删除grub.cfg文件
 [root@localhost grub2]# ls
 device.map  fonts  grubenv  i386-pc  locale

微信图片_20220301002156.png

2)重启观察故障。之后重新启动,在读条界面按 Esc 键进入启动菜单,改用光盘启动,引导界面进入急救模式,重建GRUB菜单配置文件。

  • 出现”grub>“故障提示符。

微信图片_20220228211944.png

  • 重新启动,在读条界面按 Esc 键进入启动菜单,改用光盘启动,进入急救模式,重建GRUB菜单配置文件。

微信图片_20220301001133.png

微信图片_20220301001138.png

微信图片_20220228184616.png

微信图片_20220301001258.png

微信图片_20220301093142.png

微信图片_20220228220438.png

2.3 遗忘root用户密码

2.3.1 故障原因和解决思路

故障原因:

  • 遗忘root用户的密码

故障现象:

  • 无法进行需要root权限的管理操作;
  • 若没有其他可用账号,将无法登陆操作系统。

解决思路

  • 进入急救模式,重设密码。

2.3.2 案例演示(CentOS 6)

重启系统,读条时按 e 键,之后按 a 键进入下一界面。之后输入s进入但用户模式,在单用户模式下修改root用户的密码。

微信图片_20220301002409.png

微信图片_20220228221516.png

微信图片_20220228221710.png

微信图片_20220228221906.png

2.3.2 案例演示(CentOS 7)

情况一:

有光盘的情况下,使用光盘启动,进入急救模式。使用root环境,passwd修改root用户密码。

主要命令:

 chroot /mnt/sysimage      //进入急救模式后,切换到光驱系统的根环境
 ​
 passwd                    //修改密码

演示步骤:

微信图片_20220301001133.png

微信图片_20220228184616.png

微信图片_20220301091035.png

情况二:

没有光盘的情况下,启动时按任意键暂停启动,之后按e键进入编辑模式。

将光标移动到 linux 开始的行,添加内核参数 rd.break,之后按ctrl-x启动进入单用户模式。

1646107362087.png

进入单用户模式后使用以下命令:

 mount –o remount,rw /sysroot
 chroot /sysroot
 passwd root
 ​
 #如果SELinux是启用的,才需要执行下面操作,如果没有启动,不需要执行
 touch /.autorelabel
 exit
 reboot

1646108192039.png

3、系统服务管理

3.1 系统服务控制 systemctl

命令格式:

 systemctl 控制类型 服务名称

控制类型:

  • status:查看服务状态
  • start:启动
  • stop:停止
  • restart:重新启动
  • reload:重新加载
  • daemon-reload:加载新服务,让系统识别
  • enable:开机启动
  • enable --now:将服务设置为开机启动,并立即启动
  • disable:开机不启动
  • disable --now:将服务设置为开机不启动,并立即关闭该服务

示例:

1)status 查看防火墙firewalld的状态。

 [root@localhost ~]# systemctl status firewalld     //查看firewalld服务的状态
 ● firewalld.service - firewalld - dynamic firewall daemon
    Loaded: loaded (/usr/lib/systemd/system/firewalld.service; enabled; vendor preset: enabled)
    Active: active (running) since 二 2022-03-01 20:55:55 CST; 1min 51s ago
      Docs: man:firewalld(1)
  Main PID: 871 (firewalld)
    CGroup: /system.slice/firewalld.service
            └─871 /usr/bin/python -Es /usr/sbin/firewalld --nofork --nopid
 ​
 3月 01 20:55:55 localhost.localdomain systemd[1]: Starting firewalld - dynamic firew....
 3月 01 20:55:55 localhost.localdomain systemd[1]: Started firewalld - dynamic firewa....
 3月 01 20:55:56 localhost.localdomain firewalld[871]: WARNING: ICMP type 'beyond-sco....
 3月 01 20:55:56 localhost.localdomain firewalld[871]: WARNING: beyond-scope: INVALID....
 3月 01 20:55:56 localhost.localdomain firewalld[871]: WARNING: ICMP type 'failed-pol....
 3月 01 20:55:56 localhost.localdomain firewalld[871]: WARNING: failed-policy: INVALI....
 3月 01 20:55:56 localhost.localdomain firewalld[871]: WARNING: ICMP type 'reject-rou....
 3月 01 20:55:56 localhost.localdomain firewalld[871]: WARNING: reject-route: INVALID....
 Hint: Some lines were ellipsized, use -l to show in full.

微信图片_20220301212608.png

2)disable 关闭防火墙的开机自启动,改成开机不启动(但并不改变当前状态)。

 [root@localhost ~]# systemctl disable firewalld    //关闭防火墙的开机自启动,但不改变当前状态
 Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.
 Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.

微信图片_20220301213507.png

3)stop 立即关闭防火墙。

 [root@localhost ~]# systemctl stop firewalld

微信图片_20220301214401.png

4)enable --now,将防火墙设置为开机自启动,并立即启动。

 [root@localhost ~]# systemctl enable --now  firewalld

微信图片_20220301232908.png

3.2 Linux系统的运行级别

3.2.1 查看运行级别

  • runlevel命令(只能查看切换运行级别与当前运行级别)
 [root@localhost ~]# runlevel     //查看切换运行级别与当前运行级别
 N 5
 ​
 #N:表示前一次没有切换过运行级别
 #5:当前运行级别5,处于图像界面的多用户模式

微信图片_20220301220639.png

  • systemctl工具(能查看默认的运行级别)
 [root@localhost ~]# systemctl get-default    //查看默认的运行级别
 graphical.target                             //默认运行级别为图形界面

微信图片_20220301221602.png

3.2.2 临时切换运行级别:

  • init命令
 init 0     //关机
 init 1     //切换到单用户模式(single,维护模式)
 init 3     //切换到字符界面的多用户模式
 init 5     //切换到图形界面的多用户模式
 init 6     //重启
  • systemctl工具

命令格式:

 systemctl  [command]  [unit.target]

command参数:

  • get-default:取得当前的target
  • set-default:设置指定的target为默认的运行级别
  • isolate:切换到指定的运行级别

unit.target:指运行级别(共7个)

临时切换运行级别:

 systemctl isolate poweroff.target     //关机
 systemctl isolate rescue.target       //切换到单用户模式(single,维护模式)                    
 systemctl isolate multi-user.target   //切换到字符界面的多用户模式      
 systemctl isolate graphical.target    //切换到图形界面的多用户模
 systemctl isolate reboot.target       //重启

注: 临时切换运行级别,使用 init 命令更为方便。

3.3.3 设置永久运行级别(即设置默认运行级别)

使用“ systemctl set-default ” 命令:

 [root@localhost ~]# systemctl get-default     //查看当前默认运行级别,为图形界面
 graphical.target
 [root@localhost ~]# systemctl set-default multi-user.target     //将默认运行级别修改为字符界面
 Removed symlink /etc/systemd/system/default.target.
 Created symlink from /etc/systemd/system/default.target to /usr/lib/systemd/system/multi-user.target.
 [root@localhost ~]# systemctl get-default     //查看修改后的默认运行级别,为字符界面
 multi-user.target

微信图片_20220301224009.png

注:设置默认运行级别的过程,实际是创建一个指向指定运行级别的软链接。

3.3 优化启动过程

ntsysv工具

  • 提供一个交互式、可视化窗口
  • 可以在字符终端运行
  • 便于集中管理多个服务

systemctl工具

  • 不提供交互式、可视化窗口
  • 管理单个服务效率更高