浮点数小知识点

357 阅读2分钟

浮点数比较

浮点数只有在能够表达整数和二次幂的情况下才能不损失。否则如何进行对比可以采取

[c++]
fabs(a-b) < EPSION (目标精度)

浮点数的表达方式

符号位 阶码 尾数 0 10000110 01100000001000000..

等价于 1.01100000010000 * 2^(10000110^2 - 127)

  1. 首先将二进制数进行规格化处理,只取小数点后面的数字存放到尾数区。
  2. 将最高位去掉,并扩展为23位尾数
  3. 求阶码,如果指数部分为7,则移码表示为127+7=134
  4. 将符号位,阶码与尾数合并起来,最终得到浮点数的表达方式。

概念

浮点数的精度是由尾数决定的 ,浮点数的取值范围是由阶码的尾数决定的

inline static bool isdefined (double x) { return ((* (uint64 *) & x) & 0x7FF0'0000'0000'0000) != 0x7FF0'0000'0000'0000; }                           

//将浮点数转为整型64位指针,然后获取值并与7ff的条件进行与运算,判断是否触发下面NaN判断条件。

inline static bool isundef (double x) { return ((* (uint64 *) & x) & 0x7FF0'0000'0000'0000) == 0x7FF0'0000'0000'0000; } 

这段代码是在检查浮点数前15位的阶码是否都为1,为什么这么检查取决下面的这个条件。

二进制的0x7ff0000000000001L ~ 0x7fffffffffffffffL 和 0xfff0000000000001L ~ 0xffffffffffffffffL 之间的数值被定义为NAN类型,类似正无穷大和负无穷小。