运行库

381 阅读4分钟

入口函数和程序初始化

程序从 main 开始的吗?

程序从 main 函数开始。但是事情的真相真是如此吗?如果你善于观察,就会发现当程序执行到 main 函数的第一行时,很多事情都已经完成了。

#include <stdio.h>
#include <stdlib.h>

int a = 2;

int main(int argc, char* argv[])
{
    int * p = (int *)malloc(sizeof(int));
    scanf("%d", p);
    printf("%d", a + * p);
    free(p);
}

从代码中我们可以看到,在程序刚刚执行到 main 函数的时候,全局变量的初始化进程已经结束了(a 的值已经确定),main 函数的两个参数(argc 和 argv)也被正确传了进来。此外,在你不知道的时候,堆和栈的初始化也悄悄地完成了,一些系统 I/O 也被初始化了,因此可以放心地使用 printfmalloc

操作系统装载程序之后,首先运行的代码并不是 main 的第一行,而是某些别的代码,这些代码负责准备好 main 函数执行锁需要的环境,并且负责调用 main 函数,这时候你才可以在 main 函数里放心大胆地写各种代码:申请内存、使用系统调用、触发异常、访问I/O。在 main 返回之后,它会记录 main 函数的返回值,调用 atexit 注册的函数,然后结束进程。

运行这些代码的函数称为 入口函数入口点(Entry Point),视平台的不用而有不同的名字。程序的入口点实际上是一个程序的初始化和结束部分,它往往是运行库的一部分。一个典型的程序运行步骤大致如下:

  • 操作系统在创建进程后,把控制权交到了程序的入口,这个入口往往是运行库中的某个入口的函数。
  • 入口函数对运行库和程序运行环境进行初始化,包括堆、I/O、线程、全局变量构造,等等。
  • 入口函数在完成初始化之后,调用 main 函数,正式开始执行程序的主体部分。
  • main 函数执行完毕以后,返回到入口函数,入口函数进行清理工作,包括全局变量析构、堆销毁、关闭I/O等,然后进行系统调用结束进程。

入口函数如何实现

大部分程序员在平时都接触不到入口函数,为了对入口函数进行详细的了解,接下来我们介绍一下微软(MS)的VC运行库 MSVC。Linux的VC运行库 glibc 道理基本一致。

MSVCCRT 默认的入口函数名为 mainCRTStartupmainCRTStartup 的总体流程为:

  1. 初始化和 OS 版本有关的全局变量。
  2. 初始化堆。
  3. 初始化 I/O
  4. 获取命令行参数和环境变量。
  5. 初始化 C 库的一些数据。
  6. 调用 main 并记录返回值。
  7. 检查错误并将 main 的返回值返回。

运行库

我们知道,C++ 这样的语言的实现时跟编译器密切相关的,而 glibc 只是一个 C 语言运行库,它对 C++ 的实现并不了解。而 GCCC++ 的真正实现者,它对 C++ 的全局构造和析构了如指掌。于是它提供了两个目标文件 crtbeginT.ocrtend.o 来配合 glibc 实现 C++ 的全局构造和析构。事实上 crti.ocrtn.o 中的 ".init"".finit" 提供一个在 main() 之前和之后运行代码的机制 ,而真正构造和析构则由 crtbeginT.ocrtend.o 来实现。

运行库与多线程

线程局部存储实现

很多时候,开发者在编写多线程程序的时候希望存储一些线程私有的数据。我们知道,属于每个线程私有的数据包括线程的栈和当前的寄存器,但是这两种存储都是非常不可靠的,栈会在每个函数退出和进入的时候被改变;而寄存器更是少得可怜,我们不可能拿寄存器去存储所需要的数据。假设我们要在线程中使用一个全局变量,但希望这个全局变量是线程私有的,而不是所有线程共享的,该怎么办呢?这时候就须要用到 线程局部存储(TLS,Thread Local Storage) 这个机制了。TLS 的用法很简单,如果要定义一个全局变量为 TLS 类型的,只需要在它定义前加上相应的关键字即可。

我们知道对于一个 TLS 变量来说,它有可能是一个 C++ 的全局变量,那么每个线程在启动时不仅仅是复制 .tls 的内容那么简单,还需要把这些 TLS 对象初始化,必须逐个地调用它们的全局构造函数,而且当线程退出时,还要逐个地将它们析构,正如普通的全局对象在进程启动和退出时都要构造、析构一样。