Linux从头学02：x86中内存【段寻址】方式的来龙去脉

时间：2021-10-18 16:30:56

关键字：内存寻址 x86

[导读]什么是代码段？什么是数据段？数据的类型和长度寻址范围栈实模式和保护模式Linux中的分段策略饭是一口一口的吃，计算机也是一步一步的发展，例如下面这张英特尔公司的CPU型号历史：为了利用性能越来越强悍的计算机，操作系统的也是在逐步变得膨胀和复杂。为了从最底层来学习操作系统的一些基本...

什么是代码段？
什么是数据段？
数据的类型和长度
寻址范围
栈
实模式和保护模式
Linux 中的分段策略

饭是一口一口的吃，计算机也是一步一步的发展，例如下面这张英特尔公司的CPU型号历史：

为了利用性能越来越强悍的计算机，操作系统的也是在逐步变得膨胀和复杂。

为了从最底层来学习操作系统的一些基本原理，我们只有抛开操作系统的外衣，从最原始的硬件和编程方式来入手，才能了解到一些根本的知识。

这篇文章我们就来继续挖掘一下，8086 这个开天辟地的处理器中，是如何利用段机制来对内存进行寻址的。

什么是代码段？

在上一篇文章：Linux 从头学 01：CPU 是如何执行一条指令的？中，已经提到过，在处理器的内部，执行每一条指令码时，CPU是非常机械、非常单纯地从 CS:IP 这2个寄存器计算得到转换后的物理地址，从这个物理地址所指向的内存地址处，读取一定长度的指令，然后交给逻辑运算单元(Arithmetic Logic Unit, ALU)去执行。

物理地址的计算方式是：CS * 16 IP。

当CPU读取一条指令后，根据指令操作码它能够自动知道这条指令一共需要读取多少个字节。

指令被读取之后，IP寄存器中的内容就会自增，指向内存中下一条指令的地址。

例如，在内存20000H开始的地方，存在2条指令：

mov ax, 1122H
mov bx, 3344H
当执行第一条指令时，CS = 2000H，IP = 0000H，经过地址转换之后的物理地址是：2000H * 16 0000 = 20000H(乘以 16 也就表示十六进制的数左移 1 位)：

当第一条指令码B8 22 11这3个字节被读取之后，IP 寄存器中的内容自动增加3`，从而指向下一条指令：

当第二条指令码BB 44 33这3个字节被读取之后，IP寄存器中的内容又增加3，变为0006H。

正如上篇文章所写，CPU只是反复的从CS:IP指向的内存地址中读取指令码、执行指令，再读取指令码、再执行指令。

可以看出，要完成一个有意义的工作，所有的指令码必须集中在一起，统一放在内存中某个确定的地址空间中，才能被CPU依次的读取、执行。

内存中的这块地址空间就叫做一个段，又因为这个段中存储的是代码编译得到的指令，因此又称作代码段。

因此，用来对代码段进行寻址的这两个寄存器 CS 和 IP，它们的含义就非常清楚了：

CS: 段寄存器，其中的值左移 1 位之后，得到的值就表示代码段在内存中的首地址，或者称作基地址;

IP: 指令指针寄存器，表示一条指令的地址，距离基地址的偏移量，也就是说，IP 寄存器是用来帮助 CPU 记住：哪些指令已经被处理过了，下一个要被处理的指令是哪一个;

什么是数据段？

作为一个有意义的程序，仅仅只有指令是不够的，还必须操作数据。

这些数据也应该集中放在一起，位于内存中的某个地址空间中，这块地址空间，也是一个段，称作数据段。

也就是说：代码段和数据段，就是内存中的两个地址空间，其中分别存储了指令和数据。

可以想象一下：假如指令和数据不是分开存放的，而是夹杂放在一起，那么CPU在读取一条指令时，肯定就会把数据当做指令来读取、执行，就像下面这样，不发生错误才怪呢！

CPU对内存中数据段的访问方式，与访问代码段是类似的，也是通过一个基地址，再加上一个偏移量来得到数据段中的某个物理地址。

在8086处理其中，数据段的段寄存器是DS，也就是说，当CPU执行一条指令，这条指令需要访问数据段时，就会把DS这个数据段寄存器中的值左移 1 位之后得到的地址，当做数据段的基地址。

遗憾的是，CPU中并没有提供一个类似IP寄存器的其他寄存器，来表示数据段的偏移地址寄存器。

这其实并不是坏事，因为一个程序在处理数据时，需要对数据进行什么样操作，程序的开发者是最清楚的，因此我们就可以用更灵活的方式来告诉CPU应该如何计算数据的偏移地址。

就像猴子掰苞米一样，不需要按照顺序来掰，想掰哪个就掰哪个。同样的，程序在操作数据时，无论操作哪一个数据，直接给出该数据的偏移地址的值就可以了。

数据的类型和长度

但是，在操作数据段中每一个数据，有一个比较重要的概念需要时刻铭记：数据的类型是什么，这个数据在内存中占据的字节数是多少。

我们在高级语言编程中(eg:C语言)，在定义一个变量的时候，必须明确这个变量的类型是什么。一旦类型确定了，那么它在被加载到内存中之后，所占据的空间大小也就确定了。

比如下面这张图:

假设30000H是数据段的基地址(也就意味着DS寄存器中的内容是3000H)，那么30000H地址处的数据大小是多少：11H？2211H？还是44332211H？

这几个都有可能，因为没有确定数据的类型！

我们知道，在C语言中，假如有一个指针ptr最终指向了这里的30000H物理地址处(C代码中的ptr是虚拟地址，经过地址转换之后执行这里的30000H物理地址)。

如果ptr定义成：

char *ptr;
那么可以说ptr指针指向的数值是11H。

如果ptr定义成：

int *ptrt;
就可以说ptr指针指向的数值就是44332211H(假设是小端格式)。

也就是说，指针ptr指向的数据，取决于定义指针变量时的类型。

这是高级语言中的情况，那么在汇编语言中呢？

PS: 之前我曾说过，文章的主要目的是学习 Linux 操作系统，但是为了学习一些相对底层的内容，在开始阶段必须抛开操作系统的外衣，进入到硬件最近的地方去看。

但是该怎么看呢？还是要借助一些原始的手段和工具，那么汇编代码无疑就是最好的、也是唯一的手段;

不过，涉及到的汇编代码都是最简单的，仅仅是为了说明原理;

在汇编语言中，CPU是通过指令码中的相关寄存器来判断操作数据的长度。

在上一篇文章中说过，相对于寄存器来说，CPU操作内存的速度是很慢的。

因此，CPU在对数据段中的数据进行处理的时候，一般都是先把原始数据读取到通用寄存器中(比如：ax, bx, cx dx)，然后进行计算。

得到计算结果之后，再把结果写回到内存的数据段中(如果需要的话)。

那么CPU在读写数据时，就根据指令码中使用的寄存器，来决定读写数据的长度。例如:

mov ax, [0]
其中的 [0] 表示内存的数据段中偏移地址是0的位置。

CPU在执行这条指令的时候，就会到30000H(假设此时数据段寄存器DS的值为3000H) 这个物理地址处，取出2个字节的数据，放到通用寄存器ax中，此时ax寄存器中的值就是2211H。

为什么取出2个字节？因为ax寄存器的长度是16位，就是2个字节。

那如果只想取1个字节，该怎么办？

16位的通用寄存器ax可以拆成2个8位的寄存器里使用：ah和al。

mov al, [0]
因为指令码中的al寄存器是8位，因此CPU就只读取30000H处的一个字节11，放到al寄存器中。(此时ax寄存器的高8位，也就是ah中的值保持不变)

那如果想取3个字节或4个字节怎么办？

作为相当古老的处理器，8086CPU 中是16位的，只能对8位或16位的数据进行操作。

寻址范围

从以上内容可以总结得出：

代码段和数据段都是通过【基地址偏移地址】的方式进行寻址;

基地址都放在各自的段寄存器中，CPU 会自动把段寄存器的值，左移 1 位之后，作为段的基地址;

偏移地址决定了段中的每一个具体的地址，最大偏移地址是 16 个 bit1，也即是 64KB 的空间;

注意：这里的段寄存器左移1位，是指十六进制的左移，相当于是乘以 16，因此段的基地址都是16的倍数。

我们再来看一下这里的64 KB空间，与20根地址线有什么瓜葛。

上篇文章说到：8086处理器有20根地址线，一共可以表示1MB的内存空间，即使给它更大的空间，它也没有福气去享受，因为寻址不到大于1 MB的地址空间啊！

这1MB的内存空间，就可以分割为很多个段。

例如：第1个段的地址范围是：

我们来计算最后一个段的空间。

段寄存器和偏移地址都取最大值，就是 FFFF:FFFF，先偏移再相加：FFFF0 FFFF = 10FFEF =1M 64K - 16Bytes。

超过了1 MB的空间大小，但是毕竟只有20根地址线，肯定是无法寻址超过1 MB地址空间的，因此系统会采取回绕的方式来定位到一个地址空间，类似与数学中的取模操作。

此外还有一点，在表示一个内存地址的时候，一般不会直接给出物理地址的值(比如：3000A)，而是使用段地址:偏移地址这样的形式来表示(比如：3000:000A)。

栈

栈也是数据空间的一种，只不过它的操作方式有些特殊而已。

栈的操作方式就是4个字：后进先出。

在上面介绍数据段的时候，我们都是在指令码中手动对数据的偏移地址进行设置，指哪打哪，因为这些数据放在什么位置、表示什么意思、怎么来使用，开发者自己心里最门清。

但是栈有些不一样，虽然它的功能也是用来存储数据的，但是操作栈的方式，是由处理器提供的一些专门的指令来操作的：push和pop。

push(入栈): 往栈空间中放入一个数据;
pop(出栈): 从栈空间中弹出一个数据;

注意：这里的数据是固定 2 个字节，也就是一个字。

写过C/C程序的小伙伴都知道：在函数调用的时候，存在入栈操作；在函数返回的时候，存在出栈操作。

既然栈也是指一块内存空间，那么也就是表现为内存中的一个段。

既然是一个段，那肯定就存在一个段寄存器，用来代表它的基地址，这个栈的段寄存器就是SS。

此外，由于栈在入栈和出栈的时候，是按照连续的地址顺序操作的，因此处理器为栈也提供了一个偏移地址寄存器：SP(称作：栈顶指针)，指向栈空间中最顶上的那个元素的位置。

例如下面这张图：

栈空间的基地址是1000:0000，SS:SP执行的地址空间是栈顶，此时栈顶中的元素是44。

当执行下面这2条指令时：

mov ax, 1234H
push as
栈顶指针寄存器SP中的值首先减 2，变成000A：

然后，再把寄存器ax中的值1234H放入SS:SP指向的内存单元处：

出栈的操作顺序是相反的：

pop bx
首先把SS:SP指向的内存单元中的数据1234H放入寄存器bx中，然后把栈顶指针寄存器SP中的值加 2，变成000C：

以上描述的是 8086 处理器中对栈操作的执行过程。

如果你看过其他一些栈相关的描述书籍，可以看出这里使用的是 “满递减” 的栈操作方式，另外还还有：满递增，空递减，空递增这几种操作方式。

满：是指栈顶指针指向的那个空间中，是一个有效的数据。当一个新数据入栈时，栈顶指针先指向下一个空的位置，然后把数据放入这个位置;

空：是指栈顶指针指向的那个空间中，是一个无效的数据。当一个新数据入栈时，先把数据放入这个位置，然后栈顶指针指向下一个空的位置;

递增：是指在数据入栈时，栈顶指针向高地址方向增长;

递减：是指在数据入栈时，栈顶指针向低地址方向递减;

实模式和保护模式

从以上对内存的寻址方式中可以看出：只要在可寻址的范围内，我们写的程序是可以对内存中任意一个位置的数据进行操作的。

这样的寻址方式，称之为实模式。实，就是实在、实际的意思，简洁、直接，没有什么弯弯绕。

既然编写代码的是人，就一定会犯一些低级的小错误。或者一些恶意的家伙，故意去操作那些不应该、不可以被操作的内存空间中的代码或数据。

为了对内存进行有效的保护，从80386开始，引入了保护模式来对内存进行寻址。

有些书籍中会提到 IA-32A 这个概念，IA-32 是英特尔 Architecture 32-bit简称，即英特尔32位体系架构，也是在386中首先采用。

虽然引进了保护模式，但是也存在实模式，即向前兼容。电脑开机后处于实模式，BIOS 加载主引导记录以及进行一些寄存器的设置之后就进入保护模式。

从386以后引入的保护模式下，地址线变成了32根，最大寻址空间可以达到4GB。

当然，处理器中的寄存器也变成了32位。

我们还是用段基址偏移量的方式来计算一个物理地址，假设段寄存器中内容为0，偏移地址最大长度也是32位，那么一个段能表示的最大空间也就是4GB。

这也是为什么如今现代处理器中，每个进程的最大可寻址空间是4GB(一般指的是虚拟地址)。

一句话总结：实模式和保护模式最根本的区别就是内存是否收到保护。