[深入理解计算机系统] 02 信息的表示和处理 笔记

计算机 ComputerScience|计算机原理 ComputerSystem

   
   

@ZYX 写于2020年07月12日

第二章 信息的表示和处理

前言

  • 我们研究三种最重要的数字表示
    1. 无符号(unsigned)编码基于传统的二进制表示法,表示大于或者等于零的数字
    2. 补码(two’s-complement)编码是表示有符号整数的最常见的方式,有符号整数就是可以为正或者为负的数字
    3. 浮点数(floating-point)编码是表示实数的科学记数法的以二为基数的版本
  • 计算机的表示法是用有限数量的位来对一个数字编码,因此,当结果太大以至不能表示时, 某些运算就会溢出(overflow)
  • 浮点运算有完全不同的数学属性。
    • 虽然溢出会产生特殊的值但是一组正数的乘积总是正的
    • 由于表示的精度有限,浮点运算是不可结合的
      (3.14+1e20)-1e20==0.0
      3.14+(1e20-1e20)==3.14
  • 整数运算浮点数运算会有不同的数学属性是因为它们处理数字表示有限性的方式不同:
    • 整数的表示只能编码一个较小的数值范围,但是这种表示是精确的
    • 浮点数可以编码一个较大的数值范围,但是这种表示只是近似的
  • Java语言创造了一套新的数字表示和运算标准。C标准的设计允许多种实现方式,而Java标准在数据的格式和编码上是非常精确具体的

2.1 信息存储

  • 大多数计算机使用8位的块,或者字节(byte) ,作为最小的可寻址的存储器单位 , 而不是在存储器中访问单独的
    • 虚拟存储器(virtual memory)
      机器级程序将存储器视为一个非常大的字节数组,称为虚拟存储器
    • 地址(address)
      存储器的每个字节都由一个唯一的数字来标识,称为它的地址
    • 虚拟地址空间(virtual address space)
      所有可能地址的集合称为虚拟地址空间

      • 这个虚拟地址空间是一个展现给机器级程序概念性映像
        • 实际实现是将随机访问存储器(RAM)磁盘存储器特殊硬件操作系统软件结合起来,为程序提供一个看上去统一的字节数组
      • 接下来的几章,我们将讲述编译器运行时系统是如何将存储器空间划分为更可管理的单元,以存放不同的程序对象(program object)
        • 程序对象:程序数据、指令和控制信息。
        • 这种管理完全是在虚拟地址空间里完成的

2.1.1 十六进制表示法

  • 在C语言中,以Ox或0X开头的数字常量被认为是十六进制的值。
    • 字符‘A’〜‘F’既可以是大写,也可以是小写,甚至是大小写混合

2.1.2 字与数据大小

  • 每台计算机都有一个字长(word size) ,指明指针数据标称大小(nominal size)
    • 对于一个字长为ω位的机器而言 :
      1. 虚拟地址的范围为0〜$2^{\omega}-1$
      2. 程序最多访问$2^\omega$个字节。
    • 32位和64位
      • 向后兼容:大多数64位机器都能兼容32位机器编译的程序
        基本C 数据类型的典型大小(以字节为单位)。 分配的字节数受程序是如何编译的影响而变化。 本图给出的是32 位和64 位程序的典型值
  • ISO C99引入了大小固定的数据类型:
    比如int32_t固定为4字节 in64_t固定为8字节

    • 数据大小固定,不随编译器和机器变化
  • 程序员应该力图使他们的程序在不同的机器和编译器上是可移植的
    • 可移植性的一个方面就是使程序对不同数据类型的确切大小不敏感
    • C语言标准对不同数据类型的数字范围设置了下界,但是却没有上界

2.1.4 寻址和字节顺序

  • 对于跨越多字节的程序对象,我们必须建立两个规则:
    1. 这个对象的地址是什么,
    2. 存储器中如何排列这些字节
    • 在几乎所有的机器上,多字节对象都被存储为连续的字节序列,对象的地址为所使用字节中最小的地址
  • 排列字节的规则:
    • 大端法(big endian)
      最高有效字节在最前面的方式,称为大端法(big endian)

      • 大多数IBM和Sun Microsystems的机器都采用这种规则
    • 小端法(little endian)
      最低有效字节在最前面的方式,称为小端法(little endian)

      • 大多数Intel兼容机都釆用这种规则
    • 双端法(bi-endian)
      许多比较新的微处理器使用双端法(bi-endian),也就是说可以把它们配置成作为大端或者小端的机器运行

      • 一旦选择了特定的操作系统, 字节顺序就固定了
        • 比如ARM架构处理器使用双端法,但是跑了安卓和iOS后就是小端法
    • 对于大多数应用程序员来说,他们机器所使用的字节顺序是完全不可见的,无论为哪种类型的机器编译的程序都会得到同样的结果
      • 不过有时候,字节顺序会成为问题:
        1. 网络传输
          此时应用程序的代码编写必须遵守已建立的关于字节顺序的规则,以确保:

          1. 发送方机器将它的内部表示转换成网络标准,
          2. 接收方机器则将网络标准转换为它的内部表示
        2. 当阅读表示整数数据的字节序列时
          • 通常在检查机器级程序时会出现这种情况
            8G483bd:      01      05      64      94      04      08      add      %eax,      0x8049464
          • 这一行是由反汇编器(disassembler)生成的,
            • 反汇编器是一种确定可执行程序文件所表示的指令序列的工具
        3. 当编写规避正常的类型系统的程序时
          • 强制类型转换(cast)与union
  • show_bytes函数:
typedef unsigned char *byte_pointer;
void show_bytes(byte_pointer start, int len) {
    int i;
    for(i = 0; i < len; i++)
        printf("%.2x", start[i]);
    printf("\n");
}

2.1.4 表示字符串

  • C语言中字符串被编码为一个以null (其值为0)字符结尾的字符数组
    • 字符都由某个标准编码来表示,最常见的是ASCII字符码
  • 文本数据比二进制数据具有更强的平台独立性
    • 在使用ASCII码作为字符码的任何系统上都将得到相同的结果与字节顺序和字大小规则无关

2.1.5 表示代码

  • 不同的机器类型使用不同的且不兼容的指令和编码方式
  • 二进制代码是不兼容的
  • 从机器的角度来看,程序仅仅只是字节序列

2.1.6 布尔代数简介

2.1.7 C语言中的位级运算

|就是OR (或),&就是AND (与),〜就是NOT (取反),而^就是EXCLUSIVE-OR (异或)

2.1.8 C语言中的逻辑运算

  • C语言还提供了一组逻辑运算符||、&&和!,分别对应于命题逻辑中的OR、AND和NOT 运算。
  • 逻辑运算很容易和位级运算相混淆,但是它们的功能是完全不同
    真值 返回值
    所有非零的参数 TRUE 1
    参数0 FALSE 0

2.1.9 C语言中的移位运算

  • C语言还提供了一组移位运算,以便向左或者向右移动位模式
  • 左移:
    • 对于一个位表示为$[x_{\omega-1}, x_{\omega-2}, …, x_0]$的操作数x,C表达式x«k会生成一个值,其位表示为$[x_{\omega-k-1}, x_{\omega-k-2}, …, x_0, 0, …, 0]$
      1. x向左移动k位
      2. 丢弃最高的k位
      3. 并在右端补k个0
    • 移位量应该是一个0〜ω-1之间的值
    • 移位运算是从左至右可结合的
      x«j«k==(x«j)«k
  • 右移
    • 一般而言,机器支持两种形式的右移:逻辑右移算术右移
      • 逻辑右移在左端补k个0,得到的结果是$[0, …, 0, x_{\omega-1}, x_{\omega-2}, …, x_k]$
      • 算术右移是在左端补k个最髙有效位的值,得到的结果是$[x_{\omega-1}, …, x_{\omega-1}, x_{\omega-1}, x_{\omega-2}, …, x_k]$
        • 它对有符号整数运算非常有用。
    • C语言标准并没有明确定义应该使用哪种类型的右移
      • 对于unsigned数据,右移必须是逻辑的
      • 对于有符号数据,算术/逻辑右移都可以
      • 实际上,几乎所有的编译器/机器组合都对有符号数据使用算术右移,且许多程序员也都假设这样。
    • 另一方面,Java对于如何进行右移有明确的定义
      • x>>k会将x算术右移k个位置
      • x>>>k会对x做逻辑右移

2.2 整数表示

编码整数的两种不同方式:一种只能表示非负数,而另一种能够表示负数、零和正数
– 术语表
图2-8 整数的数据与算术操作术语。下标w表示数据表示中的位数

2.2.1 整型数据类型

图2-9 32 位程序上C 语言整型数据类型的典型取值范围
图2-10 64 位程序上C 语言整型数据类型的典型取值范围
– 一个值得注意的特点是取值运围不是对称的——负数的范围比整数的范围大1。
– C语言标准定义了每种数据类型必须能够表示的最小的取值范围
图2-11 C 语言的整型数据类型的保证的取值范围。C 语言标准要求
这些数据类型必须至少具有这样的取值范围

2.2.2 无符号数的编码

  • 假设一个整数数据类型有ω位。我们可以将位向量写成 $\vec \omega$ 表示整个向量,或者写成$[x_{\omega-1}, x_{\omega-2}, …, x_0]$来表示向量中的每一位
  • 原理: unsigned数编码的定义
    对向量$\vec x=[x_{\omega-1}, x_{\omega-2}, …, x_0]$:
    $B2U_\omega(\vec x)=\sum_{i=0}^{\omega-1}x_i·2^i$
  • 函数$B2U_\omega$能够被定义为一个映射 ${0,1}^{\omega}$→{${0, …, 2^\omega-1}$}
  • 原理: unsigned编码的唯一性
    • 函数$B2U_\omega$是双射(bijection)

2.2.3 补码编码

  • 最常见的有符号数的计算机表示方式就是补码(two’s-complement) 形式
    • 将字的最高有效位解释为负权(negative weight).
  • 原理:补码编码的定义
    对向量$\vec x=[x_{\omega-1}, x_{\omega-2}, …, x_0]$:
    $B2T_\omega(\vec x)=-x_{\omega -1}2^{\omega-1}+\sum_{i=0}^{\omega-2}x_{i}2^{i}$

    • 最高有效位$x_{\omega-1}$也称为符号位,它的“权重”为一2^{\omega-1}
      • 置1,表负,置0,非负。
  • 原理:补码编码的唯一性
    函数$B2T_{\omega}$是一个双射。

    • 对于每个数$x$
      • 满足$TMin_{\omega}\le x\le TMax_{\omega}$ 则$T2B_{\omega}(x)$是x的(唯一的)ω位模式
        图2-14 重要的数字。图中给出了数值和十六进制表示
  • C语言标准并没有要求要用补码形式来表示有符号整数,但是几乎所有的机器都是这么做的
    • C 库中的文件<limits.h>定义了一组常量,来限定编译器运行的这台机器的不同整型数据类型的取值范围。比如,它定义了常量INT_MAX, INT_MIN, 和UINT_MAX它们描述了有符号和无符号整数的范围
  • Java 标准是非常明确的。它要求采用补码表示。在Java 中,单字节数据类型称为byte而不是char

2.2.4 有符号数和无符号数之间的转换

  • C 语言允许在各种不同的数字数据类型之间做强制类型转换。
  • 对于大多数C 语言的实现,处理同样字长的有符号数和无符号数之间相互转换的一般规则是:数值可能会改变,但是位模式不变
  • 原理:补码转换为无符号数
    对满足$TMin_{\omega}\le x\le TMax_{\omega}$的$x$有:
    $T2U_{\omega}(x)= \begin{cases}a &\text{, }x<0\\ c &\text{, } x \ge 0 \end{cases}$
  • 推导:补码转换为无符号数
    $B2U_{\omega}(T2B_{\omega}(x))=T2U_{\omega}(x)=x+x_{\omega-1}2^{\omega}$
  • 原理:无符号数转换为补码
    对满足$0\le u \le UMax_{\omega}$的$u$有:
    $U2T_{\omega}(u)=\begin{cases} u &\text{, }u \le TMax_{\omega}\\u-2^{\omega} &\text{, } u>TMax_{\omega} \end{cases}$
  • 推导:无符号数转换为补码
    $U2T_{\omega}(u)=-u_{\omega -1}2^{\omega}+u$

2.2.5 C 语言中的有符号数与无符号数

  • 通常,大多数数字都默认为是有符号的
  • 当执行一个运算时,如果它的一个运算数是有符号的而另一个是无符号的,那么C语言会隐式地将有符号参数强制类型转换为无符号数,并假设这两个数都是非负的,来执行这个运算。
    • 对于像<和>这样的关系运算符来说,它会导致非直观的结果
      图2-19 C 语言的升级规则的效果

2.2.6 扩展一个数字的位表示

  • 零扩展(zero extension): 将一个无符号数转换为一个更大的数据类型,我们只要简单地在表示的开头添加0:
    原理:无符号数的零扩展
    定义宽度为ω的位向量$\vec u = [u_{\omega-1}, u_{\omega}, …, u_{0}]$和宽度为 $\omega’$的位向量$\vec u’=[0, …, 0, u_{\omega-1}, u_{\omega}, …, u_{0}]$ 其中ω’>ω。则$B2U_{\omega}(\vec u)=B2U_{\omega ‘}(\vec u’)$
  • 符号扩展(sign extension) : 要将一个补码数字转换为一个更大的数据类型,可以在表示中添加最高有效位的值
    原理:补码数的符号扩展
    定义宽度为ω的位向量$\vec{x}=[x_{u-1}, x_{w-2}, \cdots, x_{0}]$和宽度为ω的位向量$\vec{x}^{\prime}=[x_{w-1}, \cdots, x_{w-1}, x_{w-1}, x_{w-2}, \cdots, x_{0}]$, 其中ω’>ω, 则$B 2 T_{w}(\bar{x})=B 2 T_{w^{\prime}}\left(x^{\prime}\right)$

2.2.7 截断数字

  • 原理:截断无符号数
      1. $\vec x=[x_{\omega-1}, x_{\omega-2}, …, x_0]$
      2. $\vec x’$是将其截断为k位的结果:$\vec x’=[x_{k-1}, x_{k-2}, …, x_{0}]$
      3. $x=B2U_{w}(\vec x)$
      4. $x’=B2U_{k}(\vec x’)$
    • 则 $x’=x \mod 2^{k}$
  • 原理:截断补码数值
      1. $\vec x=[x_{\omega-1}, x_{\omega-2}, …, x_0]$
      2. $\vec x’$是将其截断为k位的结果:$\vec x’=[x_{k-1}, x_{k-2}, …, x_{0}]$
      3. $x=B2U_{w}(\vec x)$
      4. $x’=B2T_{k}(\vec x’)$
    • 则 $x’=U2T_{k}(x \mod 2^{k})$
  • 推导:截断补码数值
    $B2U_{w}([x_{\omega-1}, x_{\omega-2}, …, x_0]) \mod 2^{k}=B2U_{k}[x_{k-1}, x_{k-2}, …, x_{0}]$

2.2.8 关于有符号数与无符号数的建议

unsigned对unsigned,不要混用有符号和无符号

2.3 整数运算

2.3.1 无符号加法

  • 原理:无符号数加法 $+_{w}^{u}$
    对$0 \le x, y<2^{w}$的x和y有:
    $x+_{w}^{u}=\begin{cases} x+y &\text{, } x+y<2^{w} \\x+y-2^{w} &\text{, }2^{w} \le x+y < 2^{w+1} \end{cases}$
  • 运算溢出,是指完整的整数结果不能放到数据类型的字长限制中去
  • 原理:检测无符号数加法中的溢出
    对:在范围$0 \le x,y \le UMax_{w}$中的x和y
    令:$s=x+^{u}_{w}y$
    则:对计算s,当且仅当s<x(或者等价地s<y)时,发生了溢出
  • 推导:检测无符号数加法中的溢出
    1. 如果s 没有溢出,我们能够肯定s≥x
    2. 如果s 确实溢出了,我们就有$s=x+y-2^{w}<x$
  • 原理:无符号数求反
    对:满足$0 \le x < 2^{w}$的任意x
    其w位的无符号逆元$-^{u}_{w}x=\begin{cases} x &\text{, } x=0 \\2^{w}-x &\text{, } x>0\end{cases}$

2.3.2 补码加法

  • 原理:补码加法
    对:满足$-2^{w-1}\le x,y \le 2^{w-1}-1$的整数x和y
    有$x+^{t}_{w}=\begin{cases} x+y-2^{w} &\text{, } 2^{w-1}\le x+y 正溢出 \\x+y &\text{, } -2^{w-1}\le x+y \le 2^{w-1} 正常 \\x+y+2^{w} &\text{, } x+y<-2^{w-1} 负溢出\end{cases}$
  • 推导:补码加法
    $x+^{t}_{w}y=U2T_{w}(T2U_{w}(x) +^{u}_{w} T2U_{w}(y))$
  • 原理:检测补码加法中的溢出
    对满足$TMin_{w} \leqslant x, \quad y \leqslant TMax_{w}$的x和y
    令$s=x+^{t}_{w}y$

    • 正溢出 当且仅当x>0, y>0(或$x+y<TMax_{w}$), s≤0
    • 负溢出 当且仅当x<0, y<0, s≥0

2.3.3 补码的非

  • 原理:补码的非
    对满足$TMin_{w} \le x \le TMax_{w}$的x
    其补码非$-^{t}_{w}x=\begin{cases} TMin_{w} &\text{, } x=TMin_{w} \\-x &\text{, } x>TMin_{w} \end{cases}$

2.3.4 无符号乘法

  • 原理:无符号数乘法
    对满足$0 \le x,y \le UMax_{w}$的x和y
    有$x*^{u}_{w}y=(x·y)\mod 2^{w}$

2.3.5 补码乘法

  • 原理:补码乘法
    对满足$TMin_{w} \le x,y \le TMax_{w}$的x和y
    有$x*^{t}_{w}y=U2T_{w}((x·y)\mod 2^{w})$
  • 原理:无符号和补码乘法的位级等价性
    给定长度为w的位向量$\vec x, \vec y$
    用补码形式的位向量表示来定义整数x和y: $x=B2T_{w}(\vec x), y=B2T_{w}(\vec y)$
    用无符号形式的位向量表示来定义非负整数x’和y’: $x’=B2U_{w}(\vec x), y’=B2U_{w}(\vec y)$
    则$T2B_{w}(x*^{t}_{w}y)=U2B_{w}(x’*^{u}_{w}y’)$

2.3.6 乘以常数

  • 以往,在大多数机器上,整数乘法指令相当慢,需要10个或者更多的时钟周期,然而其他整数运算(例如加法、减法、位级运算和移位)只需要1个时钟周期。因此,编译器使用了一项重要的优化,试着用左移和加法运算的组合来代替乘以常数因子的乘法。
  • 原理:与2的幂相乘的无符号乘法
    C 变量x和k有无符号数值x和k,
    且$0 \le k<w$
    则C 表达式x<<k产生数值:$x*^{u}_{w}2^{k}$

    • 固定大小的补码算术运算的位级操作与其无符号运算等价
      • 产生$x*^{t}_{w}2^{k}$
  • 这样就可以通过快速展开乘数,把乘法变成多次移位
    • x * 14=> (x<<3)+(x<<2)+(x<<1) 因为$14=2^{3}+2^{2}+2^{1}$
    • 甚至可以变成 (x<<4)-(x<<1) 因为$14=2^{4}-2^{1}$

2.3.7 除以2的幂

  • 在大多数机器上,整数除法要比整数乘法更慢——需要30个或者更多的时钟周期。
  • 除以2的幂也可以用右移运算来实现
    • 无符号用逻辑移位
    • 补码数用算术移位
  • 整数除法总是舍入到零
  • 原理:除以2 的幂的无符号除法
    C 变量x 和k 有无符号数值$x$和$k$
    且$0 \le k<w$
    x>>k产生数值$\lfloor x/2^{k} \rfloor$
  • 原理:除以2 的幂的补码除法,向下舍入
    C变量x 和k 分别有补码值x 和无符号数值k
    且$0 \le k<w$
    则当执行算术移位时,C表达式x>>k产生数值$\lfloor x/2^{k} \rfloor$

    • 对于x>0, 变量x 的最高有效位为0, 所以效果与逻辑右移是一样的。
      • 对于非负数来说,算术右移k位与除以$2^{k}$是一样的
  • 原理:除以2 的幂的补码除法,向上舍入
    C 变量x 和k 分别有补码值x和无符号数值k,
    且$0 \le k<w$
    则当执行算术移位时,C 表达式(x+(1<<k)-1)>>k=>$\lfloor x/2^{k} \rfloor$。

    • 也就是说,通过给x增加一个偏量y-1
      然后再将除法向下舍人
      当y整除x时,我们得到q,否则,就得到q+1
  • 算术右移的代码
    (x<0 ? x+(1<>k

2.3.8 关于整数运算的最后思考

  • 计算机执行的“整数”运算实际上是一种模运算形式

2.4 浮点数

  • 浮点表示对形如$V=x \times 2^{y}$的有理数进行编码
  • IEEE读作 eye-triple-ee

2.4.1 二进制小数

  • 形如$b_{m}b_{m-1}\dots b_{1}b_{0}.b_{-1}b{-2}\dots b_{-n+1}b_{-n}$
    $b=\sum^{m}_{i=-n}2^{i}\times b_{i}$

    • 我们只能近似地表示它
    • 增加二进制表示的长度可以提高表示的精度

2.4.2 IEEE浮点表示

  • IEEE 浮点标准用$V=(-1)^{s}\times M \times 2^{E}$E的形式来表示一个数:
    • 符号(sign) $s$决定这数是负数($s=1$)还是正数($s=0$)
      • 而对于数值0的符号位解释作为特殊情况处理。
    • 尾数(significand) $M$是一个二进制小数,它的范围是$[1, 2-\varepsilon]$或者是$[0, 1-\varepsilon ]$
    • 阶码(exponent) $E$的作用是对浮点数加权,这个权重是2的$E$次幂(可能是负数)。
  • 将浮点数的位表示划分为三个字段,分别对这些值进行编码:
    • 一个单独的符号位$s$直接编码符号$s$
    • $k$位的阶码字段exp=$e_{k-1}\cdots e_{1}e_{0}$编码阶码$E$
    • $n$位小数字段frac=$f_{n-1}\cdots f_{1}f_{0}$编码尾数$M$
      • 但是编码出来的值也依赖于阶码字段的值是否等于0。
        图2-32 标准浮点格式(浮点数由3 个字段表示。两种最常见的格式是它们
被封装到32 位(单精度)和64 位(双精度)的字中)
  • 给定位表示,根据exp 的值,被编码的值可以分成三种不同的情况(最后一种情况有两个变种)
    图2-33 单精度浮点数值的分类(阶码的值决定了这个数是规格化的、非规格化的或特殊值)
情况1: 规格化的值
  • 这是最普遍的情况。当exp的位模式既不全为0(数值0),也不全为1(单精度数值为255, 双精度数值为2047)时,都属于这类情况。
  • 阶码字段被解释为以偏置(biased) 形式表示的有符号整数
    • e.g $E=e-Bias$
    • 其中e 是无符号数,其位表示为$e_{k-1}\cdots e_{1}e_{0}$
    • Bias为一个$2^{k-1}-1$(单精度是127, 双精度是1023)的偏置值。
  • 小数字段frac被解释为描述小数值$f$,其中$0\le f<1$
    • 其二进制表示为$0.f_{n-1}\cdots f_{1}f_{0}$
  • 尾数定义为$M=1+f$
    • 这种方式也叫做隐含的以1开头的(implied leading 1)表示
      • 因为可以把$M$看成一个二进制表达式为$1.f_{n-1}\cdots f_{1}f_{0}$的数字。
情况2: 非规格化的值
  • 当阶码域为全0时,所表示的数是非规格化形式。
  • 阶码值是$E=1-Bias$
  • 尾数的值是$M=f$,也就是小数字段的值,不包含隐含的开头的1。
  • 非规格化数有两个用途
    1. 它们提供了一种表示数值0的方法
      • 符号位为0 => +0.0
      • 符号位为1 => -0.0
      • 根据IEEE的浮点格式,值+0.0 和-0.0 在某些方面被认为是不同的,而在其他方面是相同的
    2. 非规格化数的另外一个功能是表示那些非常接近于0的数
      • 它们提供了一种属性,称为逐渐溢出(gradual underflow) ,其中,可能的数值分布均勻地接近于0.0
情况3: 特殊值
  • 当指阶码全为1 的时候出现的
    • 当小数域全为0时,得到的值表示无穷
      • 当$s=0$时是$+\infty$
      • 当$s=1$时是$-\infty$
    • 当我们把两个非常大的数相乘,或者除以零时,无穷能够表示溢出的结果
  • 当小数域为非零时,结果值被称为“NaN”
    • 一些运算的结果不能是实数或无穷, 比如$\sqrt{-1}$或$\infty – \infty$
    • 在某些应用中,表示未初始化的数据时,它们也很有用处

2.4.3 数字示例

图 2-35 8 位浮点格式的非负值示例a=4 的阶码位的和 n 3 的小数位。偏置量是 7)
– 最大非规格化数$\frac{7}{512}$和最小规格化数$\frac{8}{512}$之间的平滑转变
– 这种平滑性归功于我们对非规格化数的$E$的定义。
– 通过将$E$定义为$1-Bias$而不是$-Bias$, 我们可以补偿非规格化数的尾数没有隐含的开头的1。

2.4.4 舍入

  • 舍入(rounding)运算的任务
    • 对于值x,我们一般想用一种系统的方法,能够找到“最接近的”匹配值x’,它可以用期望的浮点形式表示出来。
  • IEEE浮点格式定义了四种不同的舍入方式默认的方法是找到最接近的匹配,而其他三种可用于计算上界和下界。
    1. 向偶数舍入(round-to-even)
      • 也被称为向最接近的值舍入(round-to-nearest), 是默认的方式
      • 它将数字向上或者向下舍人,使得结果的最低有效数字是偶数
      • 在大多数现实情况中避免了统计偏差
        • 在50%的时间里,它将向上舍入,而在50%的时间里,它将向下舍入
    2. 向零舍入方式把正数向下舍入,把负数向上舍入
    3. 向下舍入方式把正数和负数都向下舍人
    4. 向上舍入方式把正数和负数都向上舍人
  • 我们将最低有效位的值0认为是偶数,值1认为是奇数。

2.4.5 浮点运算

  • IEEE 标准指定了一个简单的规则,来确定诸如加法和乘法这样的算术运算的结果:
    把浮点值x和y看成实数,
    而某个运算$\odot$定义在实数上
    计算将产生$Round(x\odot y)$

    • 这是对实际运算的精确结果进行舍入后的结果。
  • IEEE还制定一些规则规定含有特殊值的运算
    • 比如1/-0.0和1/+0.0
  • 对于浮点数加法$x+^{f}y$
    • 对于所有x和y的值,这个运算是可交换的
    • 这个运算是不可结合的
      • 比如(3.14+1e10)-1e10求值得到0.0——因为舍入,值3.14会丢失。
      • 3.14+(1e10-1e10)得出值3.14。
    • 另一方面,浮点加法满足了单调性属性
      • 若a≥b,那么对于任何a,b以及x的值,除了NaN,都有x+a≥x+b
  • 对于浮点数乘法$x*^{f}y$ – 定义为$Round(x\times y)$
    • 这个运算在乘法中是封闭的(虽然可能产生无穷大或NaN)
    • 可交换的
    • 乘法单位元为1.0
    • 不具有可结合性
      • 由于可能发生溢出,或者由于舍人而失去精度
    • 在加法上不具备分配性
    • 浮点乘法满足下列单调性:
      a≥b 且 c≥0 => $a*^{f}c \ge a*^{f}b$
      a≤b 且 c≤0 => $a*^{f}c \le a*^{f}b$
    • 还可以保证,只要a≠NaN,就有$a*^{f}a \ge 0$

2.4.6 C 语言中的浮点数

  • 当程序文件中出现下列句子时,编译器GCC会定义程序常数INFINITY(表示$+\infin$)和NAN(表示NaN):
    #define _GNU_SOURCE 1
    #include <math.h>
    
  • 当在int、 float 和double 格式之间进行强制类型转换时,程序改变数值和位模式的原则如下(假设int 是32 位的):
    • 从int转换成float 数字不会溢出,但是可能被舍入。
    • 从int或float转换成double能够保留精确的数值。
    • 从double 转换成floatÿ 因为范围要小一些,所以值可能溢出成$+\infin$或$-\infin$另外,由于精确度较小,它还可能被舍人。
    • 从float 或者double 转换成intÿ 值将会向零舍入