你了解计算机中大端小端之分吗?

作者:小牛呼噜噜 ,首发于公众号「小牛呼噜噜

哈喽,大家好,我是呼噜噜,前段时间感冒了,好久没更新文章了,今天我们来聊聊计算机储存方式大端小端字节序之分

在计算机中,无论上层是什么开发语言,到了最底层都是以二进制的形式存储运算的;二进制,与我们更熟悉的十进制(由0-9这九个数字组成,逢十进一)不同的是,只有0和1两个数字,逢二进一

如今的主流计算机,是以以储存器为中心,存储器是用来存放数据和程序,下面是架构图:

存储器 包含主存和辅存,其中主存是能直接与CPU交换信息,就是我们熟悉的内存

字节序

计算机以二进制的形式将数据存到内存中,内存的基本单位是字节Byte, 内存以字节为单位来进行读写 。1Byte = 8bit(bit叫位,也叫比特,是用以描述计算机数据量的最小单位)。字节是内存8位为一组,每组比特都会被标记一个数字,这个数字也叫地址,寻址粒度也是字节

一个字节由于8位,如果它只考虑无符号数,它的表示范围0~255;如果考虑符号,并通过补码解决0值的问题,只能表示-128~127这个范围;那么如果超出这个范围,只能将多个字节连在一起来表示数值。比如C语言中char类型是1个字节的,int类型占用4个字节,double类型会占用8个字节等等

那么多个字节依次存到内存中,就会有顺序,这个叫字节序Endianness,也被称为端序,就是 大于一个字节类型的数据在内存中的存放顺序

字节序可以被分为两类:Big-Endian大端Little-Endian小端(这也意味着单个字节没有大小端之分的),我们下文详细聊聊

大端字节序

大端字节序Big-Endian数值的高位字节存放在内存的低地址端,低位字节存放在内存的高地址端

本文这里以32位的数0x12345678,来举个例子


该数值,在内存中的存储顺序是:0x12345678。大端字节序有符号数的最高位占据内存最低地址,符号位的判定固定在第1个字节处,符号直接可以取出来,容易判断正负;另外大端字节序更贴近从左到右的书写方式,所以更符合我们人类的习惯

大端常常用于网络协议,被称为网络端序,大端用于网络协议,并不意味它比小端多好,而是网络的核心是通信,所以大家必须要有共同的标准,即网络通信的标准化

所以在TCP/IP协议中,RFC1700规定使用大端字节序为网络字节序,如果使用小端的计算机,接发数据时需要自行将主机字节序转换为网络字节序

小端字节序

小端字节序Little-Endian数值的低位字节存放在内存的低地址端,高位字节存放在内存的高地址端
本文这里还是以32位的数0x12345678,来举个例子

该数值,在内存中的存储顺序是:0x78563412。小端字节序最大的优点就是

小端字节序序最大的好处是强制转换数据类型效率较高,比如小数强制转大数只需要在高位添0;如果大数强制转小数,直接将高位数据丢弃即可,不需要额外再调整宇节

而大端字节序则需要调整字节内容,移动数据

在现代计算机中,大多采用小端字节序,比如x86、DEC VAX、PDP-11等等
当然也有采用大端字节序的,比如:IBM、Sun、PowerPC等处理器
另外ARM系列处理器,大小端字节序都支持,可配置

判断当前设备大端or小端?

可以写个小代码来快速判断,我们这里以C/C++语言为例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

BOOL IsBigEndian()
{
union NUM
{
int a;
char b;
}num;
num.a = 0x1234;
if( num.b == 0x12 )
{
return TRUE;
}
return FALSE;
}

这里利用联合体union,所有成员共用同一块内存的特性,可以轻松地判断当前设备是否是大小端字节序

尾语

最后补充一个小故事,大端小端名词来源于Jonathan Swift书写的《格列佛游记》,书中描述了小人国,因为吃鸡蛋是从大头的一端剥开还是从小头的一端这个问题,导致教派之间的冲突,连年征战,死战不休

这是不是也暗示大端小端争论,并无较真的意义,怎么好用怎么来,通信交流做好转换的必要措施即可

到如今,从技术上来说,大小端的并无谁有明显的优势,更多的是计算机发展历史的影响。最初设计时,对字节序的选择往往是任意的,但后续技术的发展,需要背上兼容性的包裹。比如ARM明明大小端都支持,为啥大部分是小端,主要是移植x86程序方便;

还有RISC-V手册描述他们选择了小端序的原因:因为小端字节序,目前在商业上占主导地位(所有x86系统、iOS、Android和Windows for ARM)。想拓宽视野地可以去看看The RISC-V Instruction Set Manual Volume I: Base User-Level ISA

当然也有商业竞争的原因,Intel的x86选择小端(可能是为了躲避专利纠纷),最终击败了IBM,导致如今主机领域小端是主流


参考资料:

《深入理解计算机系统》

https://inst.eecs.berkeley.edu/~cs250/fa11/handouts/riscv-spec.pdf

https://www.spiceworks.com/tech/tech-general/articles/big-endian-vs-little-endian


作者:小牛呼噜噜 ,首发于公众号小牛呼噜噜,系列文章还有:

  1. 计算机硬件的读写速度差异
  2. 聊聊GPU与CPU的区别
  3. 聊聊CPU的发展历程之单核、多核、超线程
  4. 什么是计算机中的高速公路-总线?
  5. 计算机中数值和字符串怎么用二进制表示?
  6. 聊聊开关和CPU之间故事
  7. 简易加法器的实现
  8. 减法器的设计与实现并用译码器显示16、10进制
  9. 漫谈从RS触发器到D触发器的发展历程
  10. 突破计算机性能瓶颈的利器CPU Cache
  11. CPU Cache是如何映射与寻址的?
  12. CPU Cache是如何保证缓存一致性?
  13. 如何利用缓存,让CPU更有效率地执行代码?
  14. [你了解计算机中大端小端之分吗?](