「深入理解计算系统」从Hello World开始

根据《深入理解操作系统》，记录了hello world程序从源代码到编译到执行的整个过程，对底层的执行过程进行了深入描述。

on_1y

2946人浏览 · 2013-09-18 17:19:48

on_1y · 2013-09-18 17:19:48 发布

从 hello world 开始

1 程序源文件
2 程序源文件是什么
3 程序被编译
4 程序运行
5 进程
- 5.1 进程切换
- 5.2 虚拟地址空间

1 程序源文件

#include <stdio.h>

int main() {
    printf ("hello, world\n");
    return 0;
}

2 程序源文件是什么

程序以0,1串的形式存储在磁盘上，每一个字符有对应的ascii码，每一个ascill码有对应的0,1串

使用od命令查看源程序ascii码，十进制形式

$ od -Ax -tcd1 hello.c 
000000    #    i    n    c    l    u    d    e         <    s    t    d    i    o    .
         35  105  110   99  108  117  100  101   32   60  115  116  100  105  111   46
000010    h    >   \n   \n    i    n    t         m    a    i    n    (    )         {
        104   62   10   10  105  110  116   32  109   97  105  110   40   41   32  123
000020   \n                        p    r    i    n    t    f         (    "    h    e
         10   32   32   32   32  112  114  105  110  116  102   32   40   34  104  101
000030    l    l    o    ,         w    o    r    l    d    \    n    "    )    ;   \n
        108  108  111   44   32  119  111  114  108  100   92  110   34   41   59   10
000040                        r    e    t    u    r    n         0    ;   \n    }   \n
         32   32   32   32  114  101  116  117  114  110   32   48   59   10  125   10
000050

3 程序被编译

程序要被机器读懂，需要转换成机器可以读懂的过程，这个过程叫做编译,编译的过程如下

预处理

gcc -E hello.c -o hello.i

这一步实际上将include指令，宏指令等展开

编译

gcc -S hello.i -o hello.s

这一步将宏展开后的文件编译成汇编文件

汇编

gcc -c hello.s -o hello.o

这一步将汇编文件编译成二进制文件

链接

gcc hello.o -o hello

这一步将一些库包含进来，例如我们没有编写printf函数的库，但是却可以使用它的功能。就是在这一步将其信息包含进来。

4 程序运行

4.1 读取命令

在shell中键入 ./hello 时，首先hello这个字符串要到达内存，这样shell才知道你要执行什么程序，这个过程有两种方式实现，一个是从键盘到CPU寄存器再到内存的过程，另外一个是通过直接存储器存取(DMA)，不经过CPU直接进入内存。两种方式如下图所示：

4.2 读取指令内容

hello进入内存后，shell知道我们要执行./hello程序，就将磁盘上的hello文件中以二进制形式存储的机器指令取到内存，再送入CPU执行。

4.3 执行过程

执行的过程是显示"hello world", 这个过程是将这个字符串从内存复制到CPU寄存器，再从 CPU寄存器到达显示设备的过程。

5 进程

5.1 进程切换

操作系统对所有正在运行的程序作了抽象，这种抽象就叫进程。每一个进程都好像是只有它自己在使用操作系统。而事实上操作系统控制各个进程不停地切换，让每个进程看起来同时在运行，例如shell与hello两个程序切换过程。

5.2 虚拟地址空间

之所以提出虚拟地址空间的概念是为了简化编程，使得程序看起来独占了整个内存。例如 hello程序的虚拟地址空间如下所示：

Execuable file 区域对应原来磁盘上的二进制hello文件(注意不是源程序，是编译后的二进制文件),它被完整地映射到了代码和数据区。 Run-time heap 区域是程序运行时动态管理的内存区域，像malloc分配的内存空间就在这一块。 Shared libraries 区域存放的是共享库代码，想一想你同时运行多个程序，它们都包含了 printf函数，这时候printf函数代码就可以被多个程序共享。 User stack 区域用于函数调用，每次调用一个函数时，就把这个函数相关的信息压入栈中，等函数退出时再弹出栈。最上面的 Kernel virtual memory区域是内核代码，也为所有程序共享。

特别注意这是一个虚拟地址空间，这些区域在这里看起来是连续的，但是实际在物理内存中可能就不是连续的了。这只是提供了一种抽象，使得进程之间相互独立，又可以共享一些共有的东西，操作系统负责将这些虚拟地址映射到实际的物理地址，而程序不直接接触物理地址，只需要关心虚拟地址就好了。

参考：《深入理解计算机系统》

图片均来自此书电子版。

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

以智能致世界 | 操作系统大会2024议程全览