网络数据的大小端问题
不同 CPU 中,4 字节整数 1 在内存空间的存储方式是不同的。4 字节整数 1 可用 2 进制表示如下:
1 | 00000000 00000000 00000000 00000001 |
有些 CPU 以上面的顺序存储到内存,另外一些 CPU 则以倒序存储,如下所示:
1 | 00000001 00000000 00000000 00000000 |
若不考虑这些就收发数据会发生问题,因为保存顺序的不同意味着对接收数据的解析顺序也不同。
字节序
字节序,也就是字节的顺序,指的是多字节的数据在内存中的存放顺序。
在几乎所有的机器上,多字节对象都被存储为连续的字节序列。例如:如果C/C++中的一个int
型变量 a 的起始地址是&a = 0x100
,那么 a 的四个字节将被存储在存储器的0x100
, 0x101
, 0x102
, 0x103
位置。
根据整数 a 在连续的 4 byte 内存中的存储顺序,字节序被分为大端序(Big Endian) 与 小端序(Little Endian)两类。 然后就牵涉出两大CPU派系:
- Motorola 6800,PowerPC 970,SPARC(除V9外)等处理器采用 Big Endian方式存储数据;
- x86系列,VAX,PDP-11等处理器采用Little Endian方式存储数据。
另外,还有一些处理器像ARM, DEC Alpha的字节序是可配置的。
大端序和小端序
CPU 向内存保存数据的方式有两种:
- 大端序(Big Endian):高位字节存放到低位地址(高位字节在前)。
- 小端序(Little Endian):高位字节存放到高位地址(低位字节在前)。
仅凭描述很难解释清楚,不妨来看一个实例。假设在 0x20 号开始的地址中保存 4 字节 int 型数据 0x12345678,大端序 CPU 保存方式如下图所示:
图1:整数 0x12345678 的大端序字节表示
对于大端序,最高位字节 0x12 存放到低位地址,最低位字节 0x78 存放到高位地址。小端序的保存方式如下图所示:
图2:整数 0x12345678 的小端序字节表示
不同 CPU 保存和解析数据的方式不同(主流的 Intel 系列 CPU 为小端序),小端序系统和大端序系统通信时会发生数据解析错误。因此在发送数据前,要将数据转换为统一的格式——网络字节序(Network Byte Order)。网络字节序统一为大端序。
主机 A 先把数据转换成大端序再进行网络传输,主机 B 收到数据后先转换为自己的格式再解析。
为什么要注意字节序
如果你写的程序只在单机环境下面运行,并且不和别人的程序打交道,那么你完全可以忽略字节序的存在。
但是,如果你的程序要跟别人的程序产生交互呢? 比如,当一个 C/C++ 的程序要与一个 Java 程序交互时:
- C/C++语言编写的程序里数据存储顺序是跟编译平台所在的CPU相关的,而现在比较普遍的 x86 处理器是 Little Endian
- JAVA编写的程序则唯一采用 Big Endian 方式来存储数据
试想,如果你的C/C++程序将变量 a = 0x12345678
的首地址传递给了Java程序,由于Java采取 Big Endian 方式存储数据,很自然的它会将你的数据翻译为 0x78563412
。显然,问题就出现了!!!
(网络传输协议TCP/IP采用的是big- endian)。
假设现在要在使用不同字节顺序的机器之间传输和交换数据,那该怎么办呢?(同样的数据,不同的机器可能有不同的理解,岂不是有悖初衷!)有两种方法,一种是全部转换成文本来传输,另一种是双方都按照某一方的字节顺序来传输(这时就有一个不同字节顺序之间的相互转换问题)。
Socket编程中经常采用第二种方法。整个传输过程如下:
发送端将本机的数据转换成网络的字节顺序(调用API函数htonl或htons),然后发送;
接收端收到网络数据后,先将数据转换成本机的字节顺序(调用API函数ntohl或ntohs),然后再进行其它操作——如此就能保证“会议精神”在通信双方的正确传达了!
大小端问题主要涉及的是非单字节非字符串外的其余数据的表示和传递,如short型、int型等。
大小端的转换只针对整数类型:short, int, long之类
对于char类型,二进制的字节流类型不存在大小端之间的转换
如果你知道你的程序主要用户群是什么平台,为了方便或者效率,你可以除了socket端口等需要在主机字节序和网络字节序之间转换外,其余数据的传递直接无视。
出于效率考虑,我们有理由也完全应该 把大小端的处理放在客户端,在客户端socket过来时把服务器主机的大小端通知给客户端,这样服务器就不需要改动,直接传递数据就行
为什么 主机的字节序不统一呢? 这是因为 各个CPU厂商出于不同的逻辑考量,换句话说 大端和小端有其各自的优势。
我们知道计算机正常的内存增长方式是从低到高(当然栈不是),取数据方式是从基址根据偏移找到他们的位置,从他们的存储方式可以看出,大端存储因为第一个字节就是高位,从而很容易知道它是正数还是负数,对于一些数值判断会很迅速。
而小端存储 第一个字节是它的低位,符号位在最后一个字节,这样在做数值四则运算时从低位每次取出相应字节运算,最后直到高位,并且最终把符号位刷新,这样的运算方式会更高效,也更符合我们手算的方式。
总结:(协议部分都是大端,应用可以自己定)
1、编程时,ip和port需要转换成网络字节序,这是网络协议的规定,注意,ip和port并不是到达应用层数据的一部分,而是网络层和传输层头部的一部分,是属于协议的一部分协议;
2、我们发送的数据是真正从发送端的应用层传输到接收端的应用层的数据,如果发送端和接收端字节序不一样,那么就要考虑字节转换。其根本是:网络传输不一定要统一大端,小端也可以,只要保证2端一致就行了。因为服务器负担大,这些工作就由客户端去做,可以有以下两种方式:1)编程之前,用文档约束好,服务器采用的是大端或者小端,然后客户端根据自己的大小端情况去转换成与服务器一样的字节序再发送和接受;2)客户端连接服务器后,服务器先发送一个表示大小端的1字节的数据到客户端,客户端接收后得知服务器的大小端,以后发送和接收数据时作大小端的调整再发送和接收。
可以使用python的struck模块或调用ntohl()和htonl()类函数来转换不同格式的数据。
htons() 用来将当前主机字节序转换为网络字节序,其中h
代表主机(host)字节序,n
代表网络(network)字节序,s
代表short,htons 是 h、to、n、s 的组合,可以理解为”将 short 型数据从当前主机字节序转换为网络字节序“。
常见的网络字节转换函数有:
- htons():host to network short,将 short 类型数据从主机字节序转换为网络字节序。
- ntohs():network to host short,将 short 类型数据从网络字节序转换为主机字节序。
- htonl():host to network long,将 long 类型数据从主机字节序转换为网络字节序。
- ntohl():network to host long,将 long 类型数据从网络字节序转换为主机字节序。
通常,以s
为后缀的函数中,s
代表 2 个字节 short,因此用于端口号转换;以l
为后缀的函数中,l
代表 4 个字节的 long,因此用于 IP 地址转换。