LLVM探索

1,059 阅读5分钟

LLVM的概念

日常开发过程我们的开发工具或多或少都跟LLVM扯得上一点关系,那么什么是LLVM呢?它有什么作用呢? 首先我们需要明白两个概念解释型语言编译型语言解释型语言:当它读到当前代码就立即执行如Python编译型语言:他需要先把它翻译成CPU可以读懂的二进制文件才可以执行。LLVM也成为架构编译器,它是用C++编写的,主要作用是用于优化任意程序编写的程序编译时间、链接时间、运行时间和空闲时间,对开发者开放并兼容已有的脚本。

编译器设计

上图为传统的编译器设计,它是一种前后端分离的一种模式。
编译器前端(Frontend):解析源代码。它会进行词法分析、语法分析、语义分析,源代码错误检查,并构建抽象语法树(AST),LLVM的前端还会生成中间代码(IR)。
优化器(Optimizer):负责各种优化,改善代码的运行时间,如优化代码中的冗余计算。
后端(Backend)/代码生成器(CodeGenerator):将优化后的代码转化为二进制文件并映射到目标指令集。

iOS的编译器架构

OC、C、C++使用的编译器前端是Clang,Swift使用的编译器前端是Swift,后端都是用的LLVM

LLVM的优点

LLVM的设计,使用通用的代码表示形式IR,它是用来在编译器中表示代码的形式。LLVM可以为任何任何语言独立的编写前端,并为任意的硬件架构编写后端。

Clang

ClangLLVM项目中的一个子项目。它是一个轻量级的编译器,它是负责编译C、C++, OC语言的编译器,它在LLVM架构中的编译器的前端。
终端输入open /usr/bin可以查看到编译器Clang

编译流程分析

  • 首先创建一个.m文件,并cd到当前文件路径
  • 终端输入clang -ccc-print-phases main.m,结果终端会打印如下 0输入文件,找到源文件。
    1:预处理阶段,处理宏的替换,头文件的引入。
    2:编译阶段,词法分析、语法分析、最终生成IR
    3:后端:此阶段LLVM通过一个一个的pass去优化,最终生成汇编代码。
    4:生成目标文件。
    5:链接,链接需要的的动静态库,生成可执行文件。
    6:通过不同的架构生成对应的可执行文件。

预处理

终端执行clang -E main.m 执行完成后,我们可以看到头文件被导入和宏被替换了。

编译

什么叫词法分析呢?预处理阶段会将代码切成一个一个的token,如括号、等号、字符串等,这个过程称为词法分析 什么叫语法分析呢?语法分析在词法分析之后,它主要是验证语法是否正确。在词法的基础之上把单词序号合成语法短语,如程序,表达式等,然后将所有的节点组成语法树(AST)。它主要分析程序在结构上是否正确。
终端输入clang -fmodules -fsyntax-only -Xclang -ast-dump main.m
输出结果如下图

生成IR(intermediate representation)

完成上述步骤代码生成器会将语法树自上到下逐步翻译成IR代码。
终端输入 clang -S -fobjc-arc -emit-llvm main.m可以查看IR代码 执行完成后可以发现目录下生成了一个.ll的文件 OC代码在这一步会进行runtime的桥接,property合成ARC处理

  • IR的基本语法 @:全局标识
    %:局部标识
    alloca:开辟内存空间
    align:􏴶􏱭􏰣􏴷内存对齐
    i32:32bit,4个字节
    store:写入内存
    load:读取数据 call:调用函数
    ret:返回

IR的优化

LLVM的优化级别分别是-O0 、-O1、-O2、-O3、-Os 终端指令 clang -Os -S -fobjc-arc -emit-llvm main.m -o main.ll

bitCode

开启bitcode后xcode会对代码进一步优化,并生成.bc的中间代码。 终端指令clang -emit-llvm -c main.ll -o main.bc可以优化IR代码生成.bc代码

生成汇编代码

终端指令clang -S -fobjc-arc main.bc -o main.s clang -S -fobjc-arc main.ll -o main.s 可以将将.bc或者.ll代码生成汇编代码。当然生成的汇编代码也可以通过终端指令clang -Os -S -fobjc-arc main.m -o main.s 进一步优化

生成目标文件

目标文件的生成,是由汇编器以汇编代码作为输入,将汇编代码转化成机器代码,最后输出成目标文件。
终端指令clang -fmodules -c main.s -o main.o可以将汇编文件输出成目标文件。 main.o文件中的符号可以通过nm命令查看 终端指令 xcrun nm -nm main.o undefined:表示在当前文件暂时找不到符号_printf
external:表示这个符号外部可以访问。

生成可执行文件

连接器最终将编译生成的.o文件和.dylib.a文件,生成mach-o文件。 终端指令 clang main.o -o main
同理我们也可以通过nm查看链接之后的可执行文件的符号。
终端指令 xcrun nm -nm main

总结

  • 编译流程: 输入代码->展开预处理->词法分析(token)->语法分析 ->生成IR ->IR优化 ->生成汇编代码 ->生成目标文件 ->链接动静态库生成可执行文件。
  • typedef:不做预处理,不是预处理指令。
  • 优化等级不是越高越好,太高会把有用代码优化掉。
  • .o文件不能执行,需要链接外部库,链接只是打标记。
  • LLVM优点:前后端分离,扩展性非常强。
  • LLVM会影响编译速度,优化可执行文件可以提高编译速度。
  • 不同的节点上,还能进行优化。