汇编(一) -- 初识汇编

1,815 阅读7分钟

前言

最近准备学习汇编,然后在B站上看到叫iOS小贤的作者发的视频挺不错,打算跟着学,文章是看视频的笔记,最后有原视频链接,想看视频的可以看看通过链接查看视频。

机器语言

  • 由0和1组成的机器指令.
  • 如: 0101 0001 1101 0110

**注:**机器指令最终转换成电信号。

汇编语言(assembly language)

  • 使用符号代替机器语言,也称为符号语言
  • 如: mov ax,bx

高级语言

  • C\C++\Java\OC\Swift,更加接近人类的自然语言
  • 如:int a = b

我们的代码在终端设备上是这样的过程:

2990730-42c0522b35289061.png

**注:**高级语言根据不同的平台编译成对应的汇编语言,汇编语言在编译成机器语言,最终执行的是机器语言,axbx是寄存器,mov ax, bx是将ax寄存器的值放入bx中,mov ax, bx在CPU底层就是1000100111011000,在做逆向开发过程中有个概念叫反汇编,安装到手机上是加密或者加壳的机器语言,通过工具可以砸壳,砸壳之后就能得到机器语言,然后可以反汇编成汇编语言(因为一条汇编指令和一条机器指令是一一对应的),但是汇编语言不能反编译成高级语言,因为不同平台下有不同的汇编指令,所以同一条C/OC语言会可能生成不同的汇编代码,也有可能会生成同样的汇编代码。

高级语言是在汇编语言之上的,做了一层包装,所以我们看到的汇编语言有很多代码是用来配置一些环境的,来支持高级语言的一些语法特性,比如面向对象的特性。

  • 汇编语言与机器语言一一对应,每一条机器指令都有与之对应的汇编指令
  • 汇编语言可以通过编译得到机器语言,机器语言可以通过反汇编得到汇编语言
  • 高级语言可以通过编译得到汇编语言\ 机器语言,但汇编语言\机器语言几乎不可能还原成高级语言

汇编语言的特点

  • 可以直接访问、控制各种硬件设备,比如存储器、CPU等,能最大限度地发挥硬件的功能
  • 能够不受编译器的限制,对生成的二进制代码进行完全的控制
  • 目标代码简短,占用内存少,执行速度快
  • 汇编指令是机器指令的助记符,同机器指令一一对应。每一款型号的CPU都有自己的机器指令集\汇编指令集,所以汇编语言不具备可移植性
  • 知识点过多,开发者需要对CPU等硬件结构有所了解,不易于编写、调试、维护
  • 不区分大小写,比如mov和MOV是一样的

**注:**汇编可以直接访问CPU,寄存器属于CPU的,可以最大限度发挥硬件的功能,而且不受编译器的限制。比如用汇编写一些病毒或者做安全相关的东西,为什么能做这些事情呢?因为用高级语言做一些开发的时候,有很多功能是受限制的,但是由于汇编是直接访问CPU的,因为操作系统也是指令集,操作系统能做的事情我们也能做。“执行速度快”是相对高级语言,一条高级语言代码生成的汇编语言可能会非常多,因为高级语言要搭一个环境,比如面向对象的语言特性,用很多汇编指令才能支撑,所以直接写汇编语言“目标代码简短,占用内存少,执行速度快”。再说一下“标代码简短,占用内存少”,我们所写的代码在执行的过程中需要加载进内存,叫装载的过程,高级语言可能你写的代码很少,但生成的汇编很多,所以占用的内存就会大。而且高级语言最终转变的二进制,因为要环境搭建,要绕很多弯,链接很多库,比方说NSLog,需要链接很多系统的库,所以最终生成的二进制有很多二进制的东西,所以最终转成的机器码比较大。

汇编的用途

  • 编写驱动程序、操作系统(比如Linux内核的某些关键部分)
  • 对性能要求极高的程序或者代码片段,可与高级语言混合使用(内联汇编)
  • 软件安全
    • 病毒分析与防治
    • 逆向\加壳\脱壳\破解\外挂\免杀\加密解密\漏洞\黑客
  • 理解整个计算机系统的最佳起点和最有效途径
  • 为编写高效代码打下基础
  • 弄清代码的本质
  • 函数的本质究竟是什么?
    • sizeof
    • ++a + ++a + ++a 底层如何执行的?
    • 编译器到底帮我们干了什么?
    • DEBUG模式和RELEASE模式有什么关键的地方被我们忽略
    • ......

下面来新建一个项目Assembly001,然后在Debug中把Debug Workflow设置成Always Show Disassembly,这样打了断点会显示反汇编代码

Screen Shot 2019-08-03 at 6.49.55 PM.png

执行程序

Screen Shot 2019-08-03 at 6.56.50 PM.png

刚刚看到的是X86汇编,movl %eax, -0x14(%rbp)在LLDB中输入memory read 0x10cc7f795可以得到这条指令所在的地址,这些都是16进制的,0x10cc7f798减去0x10cc7f795为4,也就是在内存中占有4个字节,32位。

0x10cc7f795: 89 45 ec e8 e9 02 00 00 8b 7d f8 48 8b 75 f0 48  .E.......}.H.u.H 
0x10cc7f7a5: 8b 0d cd 24 00 00 48 8b 15 be 24 00 00 89 7d e8  ...$..H...$...}.

输入memory read 0x10cc7f79548 83 ec 30这4个字节就是subq $0x30, %rsp这个指令的意思。

0x10cc7f774: 48 83 ec 30 c7 45 fc 00 00 00 00 89 7d f8 48 89  H..0.E......}.H.
0x10cc7f784: 75 f0 bf 01 00 00 00 be 02 00 00 00 e8 bb ff ff  u...............

再输入s挑战到test

Screen Shot 2019-08-03 at 6.57.30 PM.png

汇编语言的种类

  • 目前讨论比较多的汇编语言有

    • 8086汇编(8086处理器是16bit的CPU)
    • Win32汇编
    • Win64汇编
    • ARM汇编(嵌入式、Mac、iOS)
    • ......
  • 我们iPhone里面用到的是ARM汇编,但是不同的设备也有差异.因CPU的架构不同.

架构 设备
armv6 iPhone, iPhone2, iPhone3G, 第一代、第二代 iPod Touch
armv7 iPhone3GS, iPhone4, iPhone4S,iPad, iPad2, iPad3(The New iPad), iPad mini, iPod Touch 3G, iPod Touch4
armv7s iPhone5, iPhone5C, iPad4(iPad with Retina Display)
arm64 iPhone6s, iphone6s plus, iPhone6, iPhone6 plus, iPhone5S, iPad Air, iPad mini2
  • 因为学习所以建议先从最为经典的8086开始

    • 结构简洁,容易理解
    • 指令简单,便于记忆
    • 原理相通

    2990730-f24b481bdcb65228.png

**注:**手机安装的App中有很多文件,Mach-O是可执行文件,可执行文件需要装载进内存。本地图片,bundle, nib文件不属于执行文件,属于数据,也需要加载进内存,只不过在使用的时候才加载,但是执行文件首先加载进内存。加载进内存后,CUP通过地址总线读指令,读到对应指令之后会通过控制总线控制终端设备的屏幕每个像素点是RGBA,每个值是0到255,255的二进制是1111 1111,8个二进制位,也就是一个字节,内存中最小单元是一个字节。

  • 硬件相关最为重要是CPU/内存
  • 在汇编中,大部分指令都是和CPU与内存相关的

参考:

底层原理(反编译)--初识汇编