iOS逆向探究1:汇编初探1

1,074 阅读4分钟

这是我参与11月更文挑战的第1天,活动详情查看:2021最后一次更文挑战

在逆向开发中,非常重要的一个环节就是静态分析。我们知道,一个APP安装在手机上面的可执行文件本质上是二进制文件。因为iPhone手机本质上执行的指令是二进制,是由手机上的CPU执行的,所以静态分析是建立在分析二进制上面。

1. 认识汇编

编程语言由机器语言 -> 汇编语言 -> 高级语言发展而来。
现在我们所写的C/C++/Java/OC/Swift代码,在终端设备上是这样的过程:

  • 汇编语言与机器语言一一对应,每一条机器指令都有与之对应的汇编指令
  • 汇编语言可以通过编译得到机器语言,机器语言可以通过反汇编得到汇编语言
  • 高级语言可以通过编译得到汇编语言或者机器语言,但汇编语言或机器语言几乎不可能还原成高级语言

1.1 汇编语言的特点

  • 可以直接访问、控制各种硬件设别,比如存储器、CPU等,能最大限度地发挥硬件的功能
  • 能够不受编译器的限制,对生成的二进制代码进行完全的控制
  • 目标代码简短,占用内存少,执行速度快 汇编指令是机器指令的助记符,同机器指令一一对应。每一种CPU都有自己的机器指令集/汇编指令集,所以汇编语言不具备可移植性
  • 知识点过多,开发者需要对CPU等硬件结构有所了解,不抑郁编写、调试、维护
  • 不区分大小写,比如mov和MOV是一样的

1.2 汇编的用途

  • 编写驱动程序、操作系统(比如Linix内核的某些关键部分)
  • 对性能要求极高的程序或者代码片段,可与高级语言混合使用(内联汇编)
  • 软件安全
    • 病毒分析与防治
    • 逆向/加壳/脱壳/破解/外挂/免杀/加密解密/漏洞/黑客
  • 理解整个计算机系统的最佳起点和最有效途径
  • 为编写高效代码打下基础
  • 弄清代码的本质
    • 函数的本质究竟是什么?
    • 方法底层是如何执行的?
    • 编译器到底帮我们干了什么?
    • DEBUG模式和RELEASE模式有什么关键的地方被我们忽略等等

1.3 汇编语言的种类

  • 目前讨论比较多的汇编语言有
    • 8086汇编(8086处理器是16bit的CPU)
    • Win32汇编
    • Win64汇编
    • ARM汇编(嵌入式、Mac、iOS)
  • 我们iPhone里面用到的是ARM汇编,但是不同的设备也有差异,因CPU的架构不同 架构 | 设备 | | ------ | ---------------------------------------------------------------------------------------------------- | | armv6 | iPhone, iPhone2, iPhone3G, 第一代、第二代 iPod Touch | | armv7 | iPhone3GS, iPhone4, iPhone4S,iPad, iPad2, iPad3(The New iPad), iPad mini, iPod Touch 3G, iPod Touch4 | | armv7s | iPhone5, iPhone5C, iPad4(iPad with Retina Display) | | arm64 | iPhone5S 以后 iPhoneX , iPad Air, iPad mini2以后

2. 几个必要的常识

要想学好汇编,首先要了解CPU等硬件结构和APP/程序的执行过程。硬件相关最为重要的是CPU/内存,在汇编中,大部分指令都是和CPU与内存相关的

2.1 总线

每一个CPU芯片都有许多管脚,这些管脚和总线相连,CPU通过总线跟外部期间进行交互,而总线就是一根根导线的集合,总线分为:

  • 地址总线:它的宽度决定了CPU的寻址能力。如8086的地址总线宽度是20,所以寻址能力是1M(2^20)
  • 数据总线:它的宽度决定了CPU的单次数据传送量,也就是数据传送速度。如8086的数据总宽度是16,所以单次最大传送2个字节的数据
  • 控制总线:它的宽度决定了CPU对其他器件的控制能力、能有多少种控制

2.2 内存

内存地址空间的大小受CPU地址总线宽度的限制。8086的地址总线宽度为20,可以定位2^20个不同的内存单元(内存地址范围0x00000~0xFFFFF),所以8086的内存空间大小为1MB。0x00000~0x9FFFF是主存储器,可读可写;0xA0000~0xBFFFF为向显存中写入数据,这些数据会被显卡输出到显示器,可读可写;0xC))))~0xFFFFF是存储各种硬件或系统信息,只读的。