二进制世界中的整数与小数

117 阅读27分钟

现代计算机的核心是由无数个只能表示0或1的晶体管构成的,然而我们却能用它处理整数、负数、小数,甚至复杂的科学计算。这种从简单的二进制信号到丰富数值体系的转换,是计算机科学最基础也最精巧的设计之一。本文将深入解析计算机如何在二进制世界中构建完整的数值计算体系,从硬件层的基础运算到各种数值类型的编码实现。

硬件支持的二进制操作

现代CPU硬件直接支持以下基础二进制操作,它们是所有高级数值运算的基础:

位逻辑运算(硬件直接支持/单周期执行)

static_assert((static_cast<std::uint8_t>(0b11010110) & static_cast<std::uint8_t>(0b10110011)) == 0b10010010);  // AND运算
static_assert((static_cast<std::uint8_t>(0b11010110) | static_cast<std::uint8_t>(0b10110011)) == 0b11110111);  // OR运算
static_assert((static_cast<std::uint8_t>(0b11010110) ^ static_cast<std::uint8_t>(0b10110011)) == 0b01100101);  // XOR运算
static_assert(static_cast<std::uint8_t>(~0b11010110) == static_cast<std::uint8_t>(0b00101001));                // NOT运算

位移运算(移位器电路/单周期执行)

static_assert((22 << 1) == 44);   // 左移1位相当于×2
static_assert((22 << 2) == 88);   // 左移2位相当于×4
static_assert((192 >> 1) == 96);  // 右移1位相当于÷2
static_assert((192 >> 2) == 48);  // 右移2位相当于÷4

加法运算(加法器电路/单周期执行)

static_assert((0b01011010 + 0b00111100) == 0b10010110);  // 90 + 60 = 150
static_assert(
    static_cast<std::uint8_t>(static_cast<std::uint8_t>(0b11111111) + static_cast<std::uint8_t>(0b00000001)) == 0
);  // 溢出演示

减法运算/直接减法(加法器电路+借位电路)

// 示例:100 - 30 = 70 的直接减法过程
// 0b01100100 - 0b00011110 = 0b01000110
//   01100100  (100)
// - 00011110  (30)
// ----------
//   01000110  (70)

static_assert(0b01100100 == 100);
static_assert(0b00011110 == 30);
static_assert(0b01000110 == 70);
static_assert(100 - 30 == 70);

减法运算/补码(加法器电路/取反器)

这种方法的优势:

  • 硬件简化:只需一个加法器 + 取反器,无需专门的减法电路
  • 统一处理:加法和减法共享同一套硬件电路
  • 自动处理:溢出行为自然实现模运算特性
// 减法 = 加负数 = 加补码,重用加法器
// 100 - 30 = 100 + (-30)

// 步骤1:计算30的补码(-30在8位中的表示)
constexpr std::uint8_t val_30 = 30;                    // 0b00011110
constexpr std::uint8_t neg_30 = ~val_30 + 1;          // 0b11100010 = 226
static_assert(val_30 == 0b00011110);
static_assert(neg_30 == 0b11100010);  
static_assert(neg_30 == 226);

// 步骤2:100 + (-30) = 100 + 226
constexpr std::uint8_t result = 100 + neg_30;
static_assert(result == static_cast<std::uint8_t>(100 + 226));

// 步骤3:验证结果(溢出自动丢弃)
// 100 + 226 = 326,8位截断:326 % 256 = 70
static_assert(static_cast<std::uint8_t>(326) == 70);
static_assert(result == 70);
static_assert(100 - 30 == 70);

乘除法运算(硬件复杂,需要多周期执行)

// 乘法:现代CPU内置乘法器,但电路比加法器复杂得多
static_assert((0b1011 * 0b101) == 0b110111); // 11 × 5 = 55

// 除法:运算最复杂,早期CPU无除法器需软件模拟,现代CPU有硬件支持但周期数多
static_assert((0b110111 / 0b101) == 0b1011);  // 55 ÷ 5 = 11
static_assert((0b110111 % 0b101) == 0b0);     // 余数运算

无符号整数

无符号整数是计算机数值系统中最基础的类型,专门用于表示非负整数(0和正整数)。

二进制表示

无符号整数采用位权法直接表示数值,每个二进制位都参与数值计算:

// 位权法原理:每位的权重为2的幂次
static_assert(0b10110101 == 1*128 + 0*64 + 1*32 + 1*16 + 0*8 + 1*4 + 0*2 + 1*1); // = 181

// n位无符号整数的取值范围:0 到 2^n-1
static_assert(0b00000000 == 0);      // 8位无符号整数的最小值
static_assert(0b11111111 == 255);    // 8位无符号整数的最大值 = 2^8-1

// 溢出特性:自动执行模运算
static_assert(static_cast<std::uint8_t>(255 + 1) == 0);   // (255 + 1) mod 256 = 0
static_assert(static_cast<std::uint8_t>(0 - 1) == 255);   // (0 - 1) mod 256 = 255

运算方式

加法运算(逐步详解)

// 二进制加法原理:逐位相加,逢2进1
// 示例:45 + 54 = 99
//   00101101  (45)
// + 00110110  (54) 
// -----------
//   01100011  (99)

static_assert(0b00101101 + 0b00110110 == 0b01100011);
static_assert(45 + 54 == 99);

乘法运算(逐步详解)

// 二进制乘法原理:采用竖式乘法,计算部分积后相加
// 示例:11 × 5 = 55
//     1011  (11)
//   ×  101  (5)
//   ------
//     1011  (11×1)
//    0000   (11×0×2)
//   1011    (11×1×4)
//   ------
//   110111  (55)

static_assert(0b1011 * 0b101 == 0b110111);
static_assert(11 * 5 == 55);
static_assert(0b1011 + 0b0 + 0b101100 == 0b110111); // 验证部分积求和

其他运算操作

// 减法:编译器转换为补码加法处理
static_assert(99 - 54 == 45);

// 除法:采用长除法算法或硬件除法器实现
static_assert(55 / 5 == 11);
static_assert(55 % 5 == 0);     // 模运算(余数)

// 位移运算:利用硬件移位器实现高效的2的幂次乘除
static_assert((7 << 3) == 56);  // 7 × 8,执行速度比乘法指令更快
static_assert((56 >> 3) == 7);  // 56 ÷ 8,执行速度比除法指令更快

有符号整数

无符号整数只能表示非负数,但在实际应用中经常需要表示负数,这时就需要使用有符号整数。

二进制表示

有符号整数采用补码表示法,这种设计巧妙地统一了正负数的运算逻辑:

// 正数表示:与无符号数完全相同
static_assert(5 == 0b101);
static_assert(5 == 0b00000101);  // 8位二进制表示

// 负数表示:采用补码形式,公式为 2^n - |x|
static_assert(-5 == -0b101);
static_assert(static_cast<std::uint8_t>(-5) == 0b11111011);  // -5的补码表示

// n位补码的数值范围:-2^(n-1) 到 2^(n-1)-1
static_assert(static_cast<std::int8_t>(0b01111111) == 127);   // 8位有符号整数的最大正数
static_assert(static_cast<std::int8_t>(0b10000000) == -128);  // 8位有符号整数的最小负数

// 补码的数学原理:负数x的补码 = 2^n - |x|
static_assert(256 - 5 == 251);  // 理论计算
static_assert(static_cast<std::uint8_t>(-5) == 251);  // 验证补码等价性

// 补码的位运算实现:按位取反再加1
static_assert((~static_cast<std::uint8_t>(5)) + 1 == static_cast<std::uint8_t>(-5));

运算方式

加法运算(逐步详解)

// 补码加法示例:5 + (-3) = 2
// 00000101  (5的二进制)
// +11111101  (-3的补码表示)
// ----------
// 100000010  (溢出位自动丢弃,结果为2)

constexpr std::int8_t pos_5 = 5;   // 0b00000101
constexpr std::int8_t neg_3 = -3;  // 0b11111101 (补码形式)
static_assert(pos_5 + neg_3 == 2);
static_assert(static_cast<std::uint8_t>(pos_5) + static_cast<std::uint8_t>(neg_3) == 2);

减法运算(转换为加法处理)

// 减法的核心思想:a - b = a + (-b),将所有减法转换为加法
static_assert(5 - 3 == 2);       // 正数减正数
static_assert(5 - (-3) == 8);    // 正数减负数 = 正数加正数
static_assert((-5) - 3 == -8);   // 负数减正数 = 负数加负数
static_assert((-5) - (-3) == -2); // 负数减负数 = 负数加正数

浮点数

整数类型无法满足科学计算和精确小数的需求,因此需要使用浮点数来表示小数和极大/极小的数值。

二进制表示

浮点数采用IEEE 754国际标准,使用科学计数法的二进制形式进行编码:

32位单精度格式:符号位(1) + 指数位(8) + 尾数位(23)

// 数值计算公式:(-1)^符号位 × (1 + 尾数/2²³) × 2^(指数-127)

// 编码示例:12.5的完整表示过程
// 步骤1:将12.5转换为二进制:1100.1₂ = 1.1001₂ × 2³
// 步骤2:提取各部分:符号=0, 指数=3+127=130, 尾数=1001000...
// 步骤3:组合为32位:0x41480000

// 浮点数能够精确表示的数值(分母为2的幂次)
static_assert(0.5f == 0.5f);     // 1/2 = 0.1₂
static_assert(0.25f == 0.25f);   // 1/4 = 0.01₂  
static_assert(0.125f == 0.125f); // 1/8 = 0.001₂

// 浮点数无法精确表示的数值(分母非2的幂次)
static_assert(0.1f != 0.1);      // 1/10 无法用有限二进制小数表示

运算方式

加法运算(逐步详解)

// 浮点加法示例:3.5 + 1.25 = 4.75
// 步骤1:分析两个操作数的IEEE 754表示
// 3.5 = 1.11₂ × 2¹  (指数=1+127=128)
// 1.25 = 1.01₂ × 2⁰ (指数=0+127=127)

// 步骤2:指数对齐(将小指数向大指数对齐)
// 1.25 → 0.101₂ × 2¹ (尾数右移1位,指数增加1)

// 步骤3:对齐后的尾数相加
// 1.110₂ + 0.101₂ = 10.011₂

// 步骤4:结果规格化处理
// 10.011₂ → 1.0011₂ × 2² (尾数左移1位,指数增加1)

static_assert(3.5f + 1.25f == 4.75f);

乘法运算(逐步详解)

// 浮点乘法示例:3.0 × 2.5 = 7.5
// 步骤1:分析两个操作数的指数和尾数
// 3.0 = 1.1₂ × 2¹   (指数=1)
// 2.5 = 1.01₂ × 2¹  (指数=1)

// 步骤2:指数部分相加
// 新指数 = 1 + 1 = 2 (符合指数法则:2¹ × 2¹ = 2²)

// 步骤3:尾数部分相乘
// 1.1₂ × 1.01₂ = 1.111₂

// 步骤4:组合最终结果
// 1.111₂ × 2² = 7.5₁₀

static_assert(3.0f * 2.5f == 7.5f);

定点数

如何表示

定点数采用"缩放整数"的巧妙方法:将小数按固定倍数放大后以整数形式存储,从而完全避免浮点数的精度问题:

// 核心原理:实际数值 = 存储的整数值 ÷ 固定缩放因子

// Q8.8格式:8位整数部分 + 8位小数部分,缩放因子=256
constexpr int SCALE_8_8 = 256;
constexpr int fixed_3_5 = static_cast<int>(3.5 * SCALE_8_8); // 3.5存储为896
static_assert(fixed_3_5 == 896);                             // 验证:3.5 → 896
static_assert(fixed_3_5 / SCALE_8_8 == 3);                   // 还原整数部分

// Q16.16格式:16位整数部分 + 16位小数部分,缩放因子=65536
constexpr int SCALE_16_16 = 65536;
constexpr int fixed_pi = static_cast<int>(3.14159 * SCALE_16_16);
static_assert(fixed_pi == 205887);                           // π存储为整数205887

C++标准库没有提供原生的定点数类型,需要自己实现或使用第三方库。但实现相对简单,因为本质上全部是整数运算。

运算方式

加法运算

// 定点数加法:直接对存储的整数值相加,无需额外处理
// 示例:3.5 + 2.25 = 5.75 (采用Q8.8格式)

constexpr int SCALE = 256;  // Q8.8格式的缩放因子
constexpr int fixed_3_5 = static_cast<int>(3.5 * SCALE);    // 3.5 → 896
constexpr int fixed_2_25 = static_cast<int>(2.25 * SCALE);  // 2.25 → 576
constexpr int sum = fixed_3_5 + fixed_2_25;                 // 直接相加:1472

static_assert(fixed_3_5 == 896);
static_assert(fixed_2_25 == 576);
static_assert(sum == 1472);
static_assert(sum / SCALE == 5);    // 还原整数部分:5
static_assert(sum == static_cast<int>(5.75 * SCALE));  // 验证结果:5.75

乘法运算

// 定点数乘法:先执行整数乘法,然后除以缩放因子
// 示例:3.5 × 2.0 = 7.0

constexpr int fixed_3_5_mul = static_cast<int>(3.5 * SCALE);  // 3.5 → 896
constexpr int fixed_2_0 = static_cast<int>(2.0 * SCALE);     // 2.0 → 512

// 为防止整数溢出,采用更大的数据类型进行中间计算
constexpr int64_t product = static_cast<int64_t>(fixed_3_5_mul) * fixed_2_0;
constexpr int result = static_cast<int>(product / SCALE);

static_assert(product == 896 * 512);                      // 中间乘积
static_assert(result == static_cast<int>(7.0 * SCALE));   // 最终结果:7.0

定点数的 C++ 实现

#include <chrono>
#include <cstdint>
#include <iomanip>
#include <iostream>
#include <numbers>

// 定点数类模板
// TOTAL_BITS: 总位数
// FRACTIONAL_BITS: 小数部分位数
template <int TOTAL_BITS, int FRACTIONAL_BITS> class FixedPoint {
private:
  static_assert(TOTAL_BITS <= 64, "总位数不能超过64位");
  static_assert(FRACTIONAL_BITS < TOTAL_BITS, "小数位数必须小于总位数");

  using StorageType = std::conditional_t<TOTAL_BITS <= 32, int32_t, int64_t>;

  StorageType value;

  static constexpr StorageType SCALE = static_cast<StorageType>(1)
                                       << FRACTIONAL_BITS;
  static constexpr int INTEGER_BITS = TOTAL_BITS - FRACTIONAL_BITS;

public:
  // 构造函数
  FixedPoint() : value(0) {}

  // 从整数构造
  explicit FixedPoint(int i)
      : value(static_cast<StorageType>(i) << FRACTIONAL_BITS) {}

  // 从浮点数构造
  explicit FixedPoint(double d)
      : value(static_cast<StorageType>(d * SCALE + (d >= 0 ? 0.5 : -0.5))) {}

  // 转换为浮点数
  double toDouble() const { return static_cast<double>(value) / SCALE; }

  // 转换为整数(截断小数部分)
  int toInt() const { return static_cast<int>(value >> FRACTIONAL_BITS); }

  // 获取小数部分
  double getFractionalPart() const {
    StorageType fractional = value & ((1 << FRACTIONAL_BITS) - 1);
    return static_cast<double>(fractional) / SCALE;
  }

  // 运算符重载
  FixedPoint operator+(const FixedPoint &other) const {
    FixedPoint result;
    result.value = value + other.value;
    return result;
  }

  FixedPoint operator-(const FixedPoint &other) const {
    FixedPoint result;
    result.value = value - other.value;
    return result;
  }

  FixedPoint operator*(const FixedPoint &other) const {
    FixedPoint result;
    // 乘法需要防止溢出,先转换为更大的类型
    int64_t temp = static_cast<int64_t>(value) * other.value;
    result.value = static_cast<StorageType>(temp >> FRACTIONAL_BITS);
    return result;
  }

  FixedPoint operator/(const FixedPoint &other) const {
    FixedPoint result;
    // 除法需要先左移,保持精度
    int64_t temp =
        (static_cast<int64_t>(value) << FRACTIONAL_BITS) / other.value;
    result.value = static_cast<StorageType>(temp);
    return result;
  }

  bool operator==(const FixedPoint &other) const {
    return value == other.value;
  }

  bool operator<(const FixedPoint &other) const { return value < other.value; }

  // 输出运算符
  friend std::ostream &operator<<(std::ostream &os, const FixedPoint &fp) {
    os << std::fixed << std::setprecision(6) << fp.toDouble();
    return os;
  }

  // 获取内部表示
  [[nodiscard]] StorageType getRawValue() const { return value; }

  // 静态信息
  static void printInfo() {
    std::cout << "定点数格式信息:\n";
    std::cout << "  总位数: " << TOTAL_BITS << " bits\n";
    std::cout << "  整数位数: " << INTEGER_BITS << " bits\n";
    std::cout << "  小数位数: " << FRACTIONAL_BITS << " bits\n";
    std::cout << "  缩放因子: " << SCALE << "\n";
    std::cout << "  最大值: "
              << static_cast<double>((1LL << (INTEGER_BITS - 1)) - 1) +
                     (static_cast<double>(SCALE - 1) / SCALE)
              << "\n";
    std::cout << "  最小值: "
              << static_cast<double>(-(1LL << (INTEGER_BITS - 1))) << "\n";
    std::cout << "  精度: " << (1.0 / SCALE) << "\n\n";
  }
};

// 常用的定点数类型
using Fixed16_8 = FixedPoint<16, 8>;   // 16位总长度,8位小数
using Fixed32_16 = FixedPoint<32, 16>; // 32位总长度,16位小数

static void demonstrateBasicUsage() {
  std::cout << "=== 基本使用示例 ===\n";

  Fixed16_8::printInfo();

  // 创建定点数
  Fixed16_8 a(std::numbers::pi);
  Fixed16_8 b(std::numbers::e);
  Fixed16_8 c(5); // 整数

  std::cout << "a = " << a << " (内部表示: " << a.getRawValue() << ")\n";
  std::cout << "b = " << b << " (内部表示: " << b.getRawValue() << ")\n";
  std::cout << "c = " << c << " (内部表示: " << c.getRawValue() << ")\n\n";

  // 运算演示
  std::cout << "运算结果:\n";
  std::cout << "a + b = " << (a + b) << "\n";
  std::cout << "a - b = " << (a - b) << "\n";
  std::cout << "a * b = " << (a * b) << "\n";
  std::cout << "a / b = " << (a / b) << "\n\n";
}

static void compareWithFloat() {
  std::cout << "=== 与浮点数比较 ===\n";

  // 相同的初始值
  double float_val = std::numbers::pi;
  Fixed32_16 fixed_val(float_val);

  std::cout << std::fixed << std::setprecision(10);
  std::cout << "原始值: " << float_val << "\n";
  std::cout << "浮点数: " << float_val << "\n";
  std::cout << "定点数: " << fixed_val << "\n";
  std::cout << "差异: " << (float_val - fixed_val.toDouble()) << "\n\n";

  // 累积误差测试
  std::cout << "累积误差测试 (加法1000次):\n";
  double sum_float = 0.0;
  Fixed32_16 sum_fixed(0.0);
  double increment = 0.001;

  for (int i = 0; i < 1000; ++i) {
    sum_float += increment;
    sum_fixed = sum_fixed + Fixed32_16(increment);
  }

  std::cout << "浮点数结果: " << sum_float << "\n";
  std::cout << "定点数结果: " << sum_fixed << "\n";
  std::cout << "理论值: " << 1.0 << "\n";
  std::cout << "浮点数误差: " << (sum_float - 1.0) << "\n";
  std::cout << "定点数误差: " << (sum_fixed.toDouble() - 1.0) << "\n\n";
}

定点数的优点

定点数的存在源于浮点数设计中的根本性数学和性能权衡。理解这些本质问题,有助于我们在合适的场景选择正确的数值表示方法。

1. 数学精确性 vs 表示范围的权衡

// 浮点数的设计哲学:用有限位数表示无限范围
// IEEE 754 用指数位获得巨大的数值范围,但牺牲了某些精度

// 浮点数无法精确表示的简单十进制数:
static_assert(0.1 + 0.2 != 0.3); 

// 定点数的设计哲学:在有限范围内提供完全精确的表示
// Q16.16格式可以精确表示 -32768.0 到 32767.99998 范围内的所有十进制小数

using Fixed32_16 = int32_t;  // 16位整数部分 + 16位小数部分
const int SCALE = 65536;     // 2^16

constexpr Fixed32_16 fixed_01 = static_cast<Fixed32_16>(0.1 * SCALE);  // 6554
constexpr Fixed32_16 fixed_02 = static_cast<Fixed32_16>(0.2 * SCALE);  // 13107  
constexpr Fixed32_16 fixed_03 = static_cast<Fixed32_16>(0.3 * SCALE);  // 19661

static_assert(fixed_01 + fixed_02 == fixed_03);  // 永远成立!数学上完全精确

2. 计算确定性 vs 优化灵活性

// 浮点数允许编译器进行各种数学变换优化:
// (a + b) + c 可能被优化为 a + (b + c)
// a * b + c 可能被优化为 FMA指令
// 这些优化可能改变最终结果的精度

volatile float a = 1e20f, b = 1.0f, c = -1e20f;
float result1 = (a + b) + c;  // 可能得到 1.0
float result2 = a + (b + c);  // 可能得到 0.0

// 定点数基于整数运算,数学性质严格:
volatile int32_t fixed_a = static_cast<int32_t>(1e10), fixed_b = 1, fixed_c = -static_cast<int32_t>(1e10);
int32_t fixed_result1 = (fixed_a + fixed_b) + fixed_c;  // 始终得到 1
int32_t fixed_result2 = fixed_a + (fixed_b + fixed_c);  // 始终得到 1
// 加法满足结合律和交换律,结果完全可预测

3. 算法复杂度差异

// 浮点运算的内在复杂性:
// 1. 指数对齐:两个数相加前需要对齐指数
// 2. 尾数运算:在对齐后的尾数上进行运算  
// 3. 结果归一化:将结果重新规格化
// 4. 舍入处理:根据舍入模式处理超出精度的位
// 5. 异常检测:检查溢出、下溢、无效操作等

// 定点运算的简单性:
constexpr int32_t add_fixed(int32_t a, int32_t b) {
    return a + b;  // 直接整数加法,一条CPU指令
}

constexpr int32_t mul_fixed(int32_t a, int32_t b, int scale_bits) {
    return (static_cast<int64_t>(a) * b) >> scale_bits;  // 乘法+移位
}

// 复杂度对比:
// 浮点加法:O(max(指数差, 尾数位数)) 的复杂度
// 定点加法:O(1) 的复杂度

4. 并行计算效率

// SIMD并行计算中的差异:

// 128位SIMD寄存器可以容纳:
// - 4个32位float,进行4路并行浮点运算
// - 4个32位定点数,或8个16位定点数,进行更多路并行

// AVX-512 (512位) 可以容纳:
// - 16个32位float
// - 16个32位定点数,或32个16位定点数

// 内存带宽效率:
// 如果应用只需要16位精度,定点数可以用一半的内存带宽
// 缓存效率也更高,可以容纳两倍数量的数据

5. 数值稳定性的数学基础

// 某些数学算法在定点实现下更稳定的数学原因:

// 累积误差问题:
// 浮点数:每次运算都可能引入舍入误差,误差会累积
// 定点数:在范围内的运算是精确的,不会有舍入误差

// 例:数值积分的误差增长
// 浮点版本:误差 ∝ √n (其中n是积分步数)
// 定点版本:误差主要来自初始量化,不随步数增长

// Kahan求和算法在定点数下可以退化为普通求和:
float kahan_sum_float(const float* data, size_t n);    // 需要误差补偿
int32_t simple_sum_fixed(const int32_t* data, size_t n) {
    int64_t sum = 0;  // 使用更宽的类型避免溢出
    for(size_t i = 0; i < n; i++) sum += data[i];
    return static_cast<int32_t>(sum);  // 精确求和,无需补偿
}

6. 计算成本的根本差异

// 硬件实现复杂度:

// 浮点运算单元(FPU):
// - 需要专门的硬件电路
// - 复杂的控制逻辑
// - 多级流水线
// - 异常处理机制

// 定点运算:
// - 复用现有的整数运算单元
// - 简单的控制逻辑  
// - 更短的流水线
// - 无需特殊异常处理

// 能耗差异:
// 32位浮点乘法器:~300-500 门电路,功耗较高
// 32位整数乘法器:~100-200 门电路,功耗较低

从纯数学和性能角度看,定点数提供了精确性可预测性简单性效率性的优势,代价是表示范围的限制。这种权衡在很多计算场景中是值得的,特别是当应用的数值范围是已知且有限的时候。

为什么定点数未被广泛采用

尽管定点数在精度和性能方面具有明显优势,但在实际应用中,绝大多数编程语言都选择浮点数作为小数的标准表示。这一现象背后有深刻的技术和工程原因:

  • 表示范围有限
// 定点数的致命缺陷:表示范围固定且有限
using Fixed32_16 = FixedPoint<32, 16>;

// Q32.16格式的数值范围:-32768.0 到 32767.99998
// 无法表示科学计算中常见的极大或极小数值
// Fixed32_16 huge(1.0e10);     // 溢出!无法表示100亿
// Fixed32_16 tiny(1.0e-10);    // 下溢!无法表示0.0000000001

// 浮点数轻松处理极大范围
static_assert(1.0e30f > 0);     // 10^30:天文数字
static_assert(1.0e-30f > 0);    // 10^-30:原子级精度
static_assert(std::numeric_limits<float>::max() > 1e37f);  // IEEE 754单精度范围
  • 精度分配的僵化:编译时固定精度分配,无法适应动态需求

  • 标准化与互操作性

// IEEE 754:全球统一的浮点标准
static_assert(sizeof(float) == 4);      // 32位,所有平台一致
static_assert(sizeof(double) == 8);     // 64位,所有平台一致

// 定点数:缺乏统一标准
// - Q15.16、Q8.24、Q1.31 等各种格式
// - 不同库使用不同缩放因子
// - 跨平台移植困难
// - 第三方库互操作性差

// 浮点数的网络传输、文件存储都有标准协议
// 定点数需要自定义序列化/反序列化
  • 开发复杂度的显著增加:编译器没有对应的实现,程序员需要手动管理所有细节

数值计算中的常见问题

在实际编程中,数值计算面临着多种问题,这些问题可能导致程序产生错误结果、性能下降甚至崩溃。了解这些问题的本质和应对策略,对于编写可靠的数值计算代码至关重要。

精度限制

精度限制是数值计算中的根本性问题,指的是计算机无法准确表示所有实数的本质限制。这种限制是后续各种精度问题的根源。

原因一:二进制表示的本质限制

// 二进制只能精确表示特定形式的小数
// 一个有限小数 a/b (最简分数形式) 能被二进制精确表示 ⟺ b 只包含因子2

// 可以精确表示的小数(分母只有因子2):
static_assert(0.5f == 0.5);              // 1/2 = 0.1₂ 精确
static_assert(0.25f == 0.25);            // 1/4 = 0.01₂ 精确  
static_assert(0.125f == 0.125);          // 1/8 = 0.001₂ 精确
static_assert(0.75f == 0.75);            // 3/4 = 0.11₂ 精确
static_assert(0.375f == 0.375);          // 3/8 = 0.011₂ 精确
static_assert(1.25f == 1.25);            // 5/4 = 1.01₂ 精确

// 无法精确表示的小数(分母包含其他因子):
static_assert(0.1f != 0.1);              // 1/10 = 1/(2×5) 包含因子5
static_assert(0.2f != 0.2);              // 1/5 = 1/5 包含因子5  
static_assert(0.3f != 0.3);              // 3/10 = 3/(2×5) 包含因子5
static_assert(0.6f != 0.6);              // 3/5 = 3/5 包含因子5
static_assert(0.1/3.0 != 1.0/30.0);      // 1/30 = 1/(2×3×5) 包含因子3和5

// 这类小数在二进制中表现为无限循环:
// 0.1₁₀ = 0.000110011001100110011... ₂ (0011无限循环)
// 0.2₁₀ = 0.001100110011001100110... ₂ (0011无限循环)
// 1/3₁₀ = 0.010101010101010101010... ₂ (01无限循环)

// 即使有无限精度,这些数也无法用有限二进制位精确表示

原因二:有限位数的存储限制

// IEEE 754浮点格式的位数限制
// 单精度float:1位符号 + 8位指数 + 23位尾数 = 32位总长度
// 双精度double:1位符号 + 11位指数 + 52位尾数 = 64位总长度

// 即使是可以精确表示的小数,也可能因位数不足而丢失精度
static_assert(1.0f/3.0f != 1.0/3.0);     // float和double的1/3精度不同

// 整数精度限制示例:
static_assert((16777216.0f + 1.0f) == 16777216.0f);    // 2^24,float无法表示更高精度整数
static_assert((16777217.0f) == 16777216.0f);           // 16777217被舍入为16777216

// float能精确表示的最大连续整数是 2^24 = 16777216
static_assert(16777216.0f == 16777216.0f);             // 可以精确表示
static_assert((16777217.0f) != 16777217);              // 无法精确表示,被舍入

// double能精确表示的最大连续整数是 2^53
static_assert(9007199254740992.0 == 9007199254740992.0);     // 2^53,可以精确表示
static_assert((9007199254740993.0) != 9007199254740993);     // 2^53+1,无法精确表示

计算溢出(以C++为例)

溢出是最常见也是最危险的数值错误,所有数值类型在运算时都可能发生溢出。

整数 Overflow

// 无符号整数溢出:产生模运算行为(定义明确但可能不是期望结果)
static_assert(std::numeric_limits<std::uint8_t>::max() == 255);
static_assert(static_cast<std::uint8_t>(255 + 1) == 0);        // 溢出后回绕到0
static_assert(static_cast<std::uint8_t>(0 - 1) == 255);        // 下溢后回绕到最大值

// 有符号整数溢出:产生未定义行为
static_assert(std::numeric_limits<std::int8_t>::max() == 0x7F);
std::int8_t overflow = 0x7F + 1;  // 未定义行为!可能是负数或任何值


// 乘法溢出尤其危险,结果可能完全错误
constexpr int large_num = 100000;
// int product = large_num * large_num;  // 10^10,远超int范围,产生错误结果

float Overflow

// 浮点数溢出:产生无穷大(∞)
static_assert(std::numeric_limits<float>::max() == 0x1.FFFFFEp+127f);
static_assert(std::isinf(std::numeric_limits<float>::max() * 2.0f));  // 结果为正无穷

// 负无穷大
float neg_huge = -std::numeric_limits<float>::max() * 2.0f;
static_assert(std::isinf(neg_huge) && std::signbit(neg_huge)); // 结果为负无穷

float Underflow

下溢发生在数值过小,无法在当前精度下正确表示时。

// 浮点数下溢:产生零或非正规数
static_assert(std::numeric_limits<float>::min() == 0x1.0p-126f); // 2^(-126)
float tiny_result = std::numeric_limits<float>::min() / 2.0f;
// tiny_result可能是0(下溢到零)或非正规数(subnormal)

// 渐进下溢:IEEE 754的优雅处理方式
// 当指数达到最小值时,通过减少尾数精度来表示更小的数
static_assert(std::numeric_limits<float>::denorm_min() < std::numeric_limits<float>::min());

float 计算时精度丢失问题

精度丢失是浮点数计算中最普遍的问题,即使没有溢出也会发生。其根本原因源于前面提到的精度限制:计算机无法准确表示所有实数,这种表示误差在运算过程中会进一步累积和放大。运算过程中的精度丢失主要表现为以下几种情况:

  • 大小数相加导致的精度丢失:小数被"吞没"
static_assert((1.0e20f + 1.0f) == 1.0e20f);  // 1.0被精度丢失

// 为什么小数会被"吞没"?让我们深入分析IEEE 754的运算过程
// 
// 步骤1:分析两个数的IEEE 754表示
// 1.0e20f = 1.0 × 10^20 ≈ 1.0 × 2^66  (简化表示,实际更复杂)
// 1.0f    = 1.0 × 2^0
// 
// 步骤2:浮点加法需要指数对齐
// 为了相加,需要将较小数的指数调整到与较大数相同
// 1.0f 需要调整为:1.0 × 2^-66 × 2^66 = 2^-66 × 2^66
// 
// 步骤3:精度限制导致信息丢失
// IEEE 754单精度只有23位尾数(+1位隐含位),总共24位有效数字
// 当1.0需要右移66位来对齐指数时,完全超出了24位精度范围
// 结果:1.0的信息完全丢失,变成了0
// 
// 步骤4:最终运算
// 1.0e20f + 0 = 1.0e20f
  • 表示误差在运算中的累积:0.1 + 0.2 != 0.3
// 步骤1:各个操作数的实际IEEE 754表示
// 0.1f的二进制表示(23位尾数 + 1位隐含位):
// 0.1f = 1.10011001100110011001101₂ × 2^(-4)
// 十进制近似:0.100000001490116119384765625

// 0.2f的二进制表示:
// 0.2f = 1.10011001100110011001101₂ × 2^(-3)  
// 十进制近似:0.200000002980232238769531250

// 0.3f的二进制表示:
// 0.3f = 1.00110011001100110011010₂ × 2^(-2)
// 十进制近似:0.300000011920928955078125000

// 步骤2:加法运算过程(指数对齐)
// 0.1f + 0.2f 需要先对齐指数:
// 0.1f: 1.10011001100110011001101₂ × 2^(-4)
// 0.2f: 1.10011001100110011001101₂ × 2^(-3) = 11.0011001100110011001101₂ × 2^(-4)

// 步骤3:尾数相加
// 1.10011001100110011001101₂ + 11.0011001100110011001101₂ 
// = 100.110011001100110011010₂ × 2^(-4)

// 步骤4:结果规格化
// 100.110011001100110011010₂ × 2^(-4) = 1.00110011001100110011010₂ × 2^(-2)
// 这个结果需要舍入到23位尾数

// 步骤5:最终结果
// 0.1f + 0.2f ≈ 0.300000004470348358154296875
// 0.3f        ≈ 0.300000011920928955078125000
// 两者的差异:≈ 7.45058059692382812e-09
  • 相近数相减的灾难性精度丢失
// 当两个相近的数相减时,有效位数会急剧减少
float a = 1.0000001f;
float b = 1.0000000f;
float diff = a - b;  // 理论结果应该是 0.0000001 = 1e-7

// 运算过程分析:
// a = 1.0000001f 在float中的实际表示:
// 二进制:1.00000000000000011110110₂
// 十进制:≈ 1.00000011920928955078125

// b = 1.0000000f 在float中的实际表示:  
// 二进制:1.00000000000000000000000₂
// 十进制:= 1.0 (精确)

// 相减结果:
// 1.00000011920928955078125 - 1.0 = 1.1920928955078125e-07
// 但理论值是:1e-07 = 1.0000000000000000e-07
// 相对误差:约19%!

C++ (0.1f + 0.2f == 0.3f)

#include <iostream>
#include <iomanip>
#include <cmath>

int main() {
    std::cout << std::fixed << std::setprecision(20);
    
    // 1. 验证float的情况:0.1f + 0.2f == 0.3f 返回 true
    float f1 = 0.1f;
    float f2 = 0.2f; 
    float f3 = 0.3f;
    float sum_f = f1 + f2;
    
    std::cout << "=== float精度测试 ===" << std::endl;
    std::cout << "0.1f = " << f1 << std::endl;
    std::cout << "0.2f = " << f2 << std::endl;
    std::cout << "0.3f = " << f3 << std::endl;
    std::cout << "0.1f + 0.2f = " << sum_f << std::endl;
    std::cout << "0.1f + 0.2f == 0.3f: " << (sum_f == f3) << std::endl;  // true!
    std::cout << "差值: " << (sum_f - f3) << std::endl;                    // 0
    
    std::cout << "\n=== double精度测试 ===" << std::endl;
    
    // 2. 对比double的情况:0.1 + 0.2 == 0.3 返回 false
    double d1 = 0.1;
    double d2 = 0.2;
    double d3 = 0.3;
    double sum_d = d1 + d2;
    
    std::cout << "0.1 = " << d1 << std::endl;
    std::cout << "0.2 = " << d2 << std::endl;
    std::cout << "0.3 = " << d3 << std::endl;
    std::cout << "0.1 + 0.2 = " << sum_d << std::endl;
    std::cout << "0.1 + 0.2 == 0.3: " << (sum_d == d3) << std::endl;     // false!
    std::cout << "差值: " << (sum_d - d3) << std::endl;                   // 约5.55e-17
 
    return 0;
}

为什么float的 0.1f + 0.2f == 0.3f 会相等?

这个现象的核心在于理解IEEE 754浮点标准的舍入机制。IEEE 754标准规定了浮点数的表示格式和运算规则。当一个数值无法在有限的二进制位中精确表示时,必须进行舍入(rounding)到最接近的可表示值。

舍入过程的关键步骤:

  1. 数值转换:将十进制小数转换为二进制

    • 0.1f = 0b0.0001100110011... ₂ (无限循环)
    • 0.2f = 0b0.0011001100110... ₂ (无限循环)
    • 0.3f = 0b0.0100110011001... ₂ (无限循环)
  2. 精度截断:IEEE 754单精度只有23位尾数(+1位隐含位)

    • 0.1f 实际存储为:0.100000001490116119384765625
    • 0.2f 实际存储为:0.200000002980232238769531250
    • 0.3f 实际存储为:0.300000011920928955078125000
  3. 运算舍入:0.1f + 0.2f 的计算过程

    • 中间结果需要舍入到最接近的可表示float值
    • 关键巧合:舍入后的结果恰好等于0.3f的存储表示

除零与无效操作(以C++为例)

除零和其他无效操作会产生特殊的IEEE 754值。

// 整数除零:产生异常或未定义行为
// int illegal = 5 / 0;  // 编译时错误或运行时异常

// 浮点数除零:产生无穷大或NaN
static_assert(std::isinf(1.0f / 0.0f));       // 正无穷
static_assert(std::isinf(-1.0f / 0.0f));      // 负无穷
static_assert(std::isnan(0.0f / 0.0f));       // NaN(Not a Number)

// 其他产生NaN的操作
static_assert(std::isnan(std::sqrt(-1.0f)));  // 负数开方
static_assert(std::isnan(std::log(-1.0f)));   // 负数取对数
static_assert(std::isnan(std::acos(2.0f)));   // 超出定义域

// NaN的传播性:任何与NaN的运算都产生NaN
float nan_value = std::numeric_limits<float>::quiet_NaN();
static_assert(std::isnan(nan_value + 1.0f));
static_assert(std::isnan(nan_value * 0.0f));
static_assert(!(nan_value == nan_value));     // NaN != NaN

类型转换错误

不同数值类型之间的转换可能导致精度丢失或值的改变。

// 整数转换溢出
static_assert(static_cast<std::int8_t>(200) == -56);  // 200超出int8范围,产生回绕

// 浮点数转整数:截断小数部分
static_assert(static_cast<int>(3.14f) == 3);
static_assert(static_cast<int>(-3.14f) == -3);
static_assert(static_cast<int>(2.1e9f) == 2100000000);  // 可能超出int范围

// 大整数转浮点数:精度丢失
static_assert(static_cast<float>(16777217) == 16777216.0f);  // 精度不足,值被改变