本文將帶你了解系統(tǒng)大小端的原理以及字節(jié)序,如何在程序中對(duì)大小端進(jìn)行檢測(cè)。如果覺(jué)得不錯(cuò),歡迎關(guān)注、分享、收藏、點(diǎn)贊。希望能幫助到大家,如有錯(cuò)誤敬請(qǐng)指出,謝謝!
目錄
- 先說(shuō)內(nèi)存
- 字節(jié)
- 字節(jié)順序
- 大端和小端的區(qū)分
先說(shuō)內(nèi)存
程序運(yùn)行在內(nèi)存中,計(jì)算機(jī)中的最小存儲(chǔ)單位是Bit
,即1
和0
的二進(jìn)制,它可以識(shí)別的機(jī)器碼就是以二進(jìn)制形式存儲(chǔ)的;
內(nèi)存由多個(gè)存儲(chǔ)單元組成,每個(gè)存儲(chǔ)單元都有一個(gè)唯一的數(shù)字地址字節(jié)可尋址內(nèi)存。每個(gè)存儲(chǔ)位置可以包含固定數(shù)量的二進(jìn)制數(shù)字。
在大多數(shù)的現(xiàn)代計(jì)算機(jī)上,地址的最小數(shù)據(jù)的長(zhǎng)度為8
位,稱為字節(jié)(1 Byte = 8 Bit
);
一般計(jì)算機(jī)中用戶程序直接訪問(wèn)的地址是虛擬內(nèi)存的地址,操作系統(tǒng)內(nèi)核會(huì)根據(jù)用戶程序訪問(wèn)的虛擬地址,找出頁(yè)表中對(duì)于的物理地址,最終尋址到所需要的數(shù)據(jù);具體如下圖所示;
然而,在MCU等裸機(jī)開(kāi)發(fā)的環(huán)境中,沒(méi)有MMU
,則程序直接訪問(wèn)的是物理內(nèi)存,所以無(wú)論是計(jì)算機(jī)還是MCU在程序運(yùn)行中都需要內(nèi)存作為載體,保存數(shù)據(jù)和運(yùn)行程序。那么,下面再來(lái)看是程序以及數(shù)據(jù)在內(nèi)存中是以何種形式存儲(chǔ)的?
字節(jié)
前面提到過(guò),在大多數(shù)的現(xiàn)代計(jì)算機(jī)上,地址的最小數(shù)據(jù)的長(zhǎng)度為8
位,稱為字節(jié)(1 Byte = 8 Bit
);至于為什么是8位?看起來(lái)似乎有點(diǎn)玄學(xué),并且很吉利的一個(gè)數(shù)字,但是老外好像沒(méi)有數(shù)字迷信,這里的原因大概是因?yàn)檫@幾點(diǎn);
-
由于計(jì)算機(jī)內(nèi)部最本質(zhì)需要實(shí)現(xiàn)的操作是加法,減法,乘法,除法等運(yùn)算都能通過(guò)加法實(shí)現(xiàn),另外由于最早期設(shè)計(jì)的加法器是8位;
-
另外一個(gè)原因可以追溯到1956年,IBM公司最早提出字節(jié)的概念,隨著IBM的壯大,字節(jié)便專門用來(lái)表示二進(jìn)制數(shù),其中也包括不少優(yōu)點(diǎn);易于以BCD碼形式保存;用于保存文本也非常合適,另外世界上大部分語(yǔ)言都可以用小于256個(gè)字符(一個(gè)字節(jié)寬度)來(lái)表示,如果一個(gè)不夠,那就兩個(gè),比如中文;
[^1]: 編碼 第15章 字節(jié)與十六進(jìn)制
字節(jié)順序
在說(shuō)大小端之前,要先提一下字節(jié)順序(Endianness
),它是描述數(shù)據(jù)以字節(jié)為一組在計(jì)算機(jī)內(nèi)存中存儲(chǔ)順序的術(shù)語(yǔ)。
字節(jié)順序可以是大端順序(big-endian
)或者小端順序(little-endian
);在對(duì)多字節(jié)數(shù)據(jù)進(jìn)行存儲(chǔ)時(shí),一般遵循以下規(guī)則;
- 小端:數(shù)據(jù)的最后一個(gè)字節(jié)先存儲(chǔ),即LSB;
- 大端:數(shù)據(jù)的第一個(gè)字節(jié)先存儲(chǔ),即MSB;
數(shù)據(jù)0x01020304
分別在大端機(jī)器和小端機(jī)器中的存儲(chǔ)形式,具體如下圖所示;
在大多數(shù)情況下,編譯器會(huì)處理字節(jié)順序,從而避免出現(xiàn)大小端不一致的問(wèn)題,但是在以下情況下字節(jié)順序就會(huì)成為一個(gè)問(wèn)題。
在通訊中,例如網(wǎng)絡(luò)編程:假設(shè)在小端機(jī)器上向文件寫(xiě)入整數(shù),然后將此文件傳輸?shù)酱蠖藱C(jī)器上。如果沒(méi)有做大小端轉(zhuǎn)換,那么大端機(jī)器就會(huì)以相反的順序讀取文件。
TCP/IP
協(xié)議中,默認(rèn)使用的是大端順序,它與具體的CPU類型、操作系統(tǒng)等無(wú)關(guān);
那么如何在程序中快速的區(qū)分大小端呢?
大端和小端的區(qū)分
下面介紹幾種通過(guò)C語(yǔ)言實(shí)現(xiàn)大小端判斷的方法;
第一種通過(guò)指針的內(nèi)存對(duì)齊來(lái)實(shí)現(xiàn);
函數(shù)的形式;
unsigned char check_endian( void )
{
int test_var = 1;
unsigned char *test_endian = (unsigned char*)&test_var;
return (test_endian[0] == 0);
}
宏定義的形式;
static uint32_t endianness = 0xdeadbeef;
enum endianness { BIG, LITTLE };
#define ENDIANNESS ( *(const char *)&endianness == 0xef ? LITTLE \
: *(const char *)&endianness == 0xde ? BIG \
: assert(0))
更加簡(jiǎn)潔;
#define IS_BIG_ENDIAN (!*(unsigned char *)&(uint16_t){1})
第二種通過(guò)結(jié)構(gòu)體和聯(lián)合體的內(nèi)存對(duì)齊來(lái)實(shí)現(xiàn);
#ifndef ORDER32_H
#define ORDER32_H
#include <limits.h>
#include <stdint.h>
#if CHAR_BIT != 8
#error "unsupported char size"
#endif
enum
{
O32_LITTLE_ENDIAN = 0x03020100ul,
O32_BIG_ENDIAN = 0x00010203ul,
O32_PDP_ENDIAN = 0x01000302ul, /* DEC PDP-11 (aka ENDIAN_LITTLE_WORD) */
O32_HONEYWELL_ENDIAN = 0x02030001ul /* Honeywell 316 (aka ENDIAN_BIG_WORD) */
};
static const union { unsigned char bytes[4]; uint32_t value; } o32_host_order =
{ { 0, 1, 2, 3 } };
#define O32_HOST_ORDER (o32_host_order.value)
#endif
當(dāng)然具體的方法還有很多,本文就先講到這里。