[240910] LLM 推理框架性能评估：突破“内存墙” | C++26 新特性概览 (第一部分)- 大型语言模型（L

LLM 推理框架性能评估：突破“内存墙”

近年来，大型语言模型（LLM）发展迅速，但其推理过程对性能的要求也越来越高。本文将深入探讨 LLM 推理框架的性能评估方法，并揭示“内存墙”对性能的限制。

一、内存墙：硬件限制下的性能瓶颈

LLM 推理框架的性能主要受限于“内存墙”，即处理器速度与内存带宽之间的巨大差距。由于 Transformer 模型在解码阶段需要不断从内存加载模型权重，因此 LLM 推理过程通常是内存密集型操作。这意味着，在相同硬件平台和内存条件下，不同推理框架的性能差异不会太大。

二、MLPerf场景：评估性能的关键指标

MLPerf 推理基准测试提供了几种常见的 LLM 使用场景，包括单流、服务器和离线场景。

单流场景：单个用户与 LLM 交互，性能受限于“内存墙”，tokens/s 较低。
服务器场景：单个推理系统同时处理多个用户请求，通过批处理提高计算效率，tokens/s 较高。
离线场景：类似于服务器场景，但可以对所有请求进行批处理和调度，tokens/s 最高。

三、量化和稀疏性：谨慎使用

量化和稀疏性是两种常用的深度学习优化方法，可以减少模型大小，从而降低内存访问频率。但需要注意的是，过度压缩模型可能会显著降低其精度。

四、突破内存墙：未来研究方向

量化和稀疏性优化：开发更高效的压缩算法，在保证模型精度的同时最大程度地减少模型大小。
并行和推测解码：探索并行解码算法，例如推测解码和并行解码，以提高解码效率。

五、Lamini：高性能 LLM 推理和微调平台

Lamini 致力于为企业提供最佳的 LLM 推理和微调解决方案。其推理引擎针对服务器场景进行了优化，并支持量化和稀疏性等优化技术，能够在保证模型精度的同时最大限度地提高推理速度。

综合上述总结：

LLM 推理框架的性能主要受限于“内存墙”。
选择合适的 MLPerf 场景进行性能评估至关重要。
谨慎使用量化和稀疏性等优化方法。
未来研究方向包括量化和稀疏性优化、并行和推测解码等。

来源：
www.lamini.ai/blog/evalua…

C++26 新特性概览 (第一部分)

C++26 标准仍在制定中，但已经添加了一系列语言和库功能，其中一些功能已经得到了 Clang 和 GCC 的支持。本文将介绍 C++26 中添加的几个语言特性。

1. 为删除的函数指定原因

C++11 引入了 delete 关键字，用于删除函数，阻止其被使用。例如：

class NonCopyable {
public:
    // ...
    NonCopyable() = default;

    // 删除拷贝构造函数和拷贝赋值运算符
    NonCopyable(const NonCopyable&) = delete;
    NonCopyable& operator=(const NonCopyable&) = delete;
    // 可以提供移动成员函数
};

C++26 允许为 delete 添加说明信息，解释删除函数的原因，方便 API 作者提供更友好的错误信息：

class NonCopyable {
public:
    // ...
    NonCopyable() = default;

    // 删除拷贝构造函数和拷贝赋值运算符，并说明原因
    NonCopyable(const NonCopyable&)
        = delete("该类管理唯一资源，不支持拷贝，请使用移动语义。");
    NonCopyable& operator=(const NonCopyable&)
        = delete("该类管理唯一资源，不支持拷贝，请使用移动语义。");
    // 提供移动成员函数
};

2. 使用单个下划线 `_` 声明无名变量

在某些情况下，需要声明一个变量，但从不使用它的名称，例如结构化绑定、仅用于副作用的锁等。C++26 允许使用单个下划线 _ 来定义无名变量。

例如，以下代码中，unused 是一个未使用的变量：

[[maybe_unused]] auto [data, unused] = get_data();

在 C++26 中，可以使用 _ 替代 unused：

auto [data, _] = get_data();

使用 _ 声明的变量被称为“名称无关”变量，编译器不会对其发出未使用警告。需要注意的是，多个“名称无关” 变量可以在同一作用域（非命名空间作用域）内使用，但不能用于静态变量或命名空间作用域内的变量声明。

3. 结构化绑定声明作为条件语句

结构化绑定可以用于 for 循环的范围声明，例如：

for (auto [position, length] : tokenize(text, offset)) {
    std::println("pos {}, len {}", position, length);
}

但在 C++20 中，结构化绑定不能用于 if、while 或 for 语句的条件表达式中。C++26 允许将结构化绑定声明作为条件语句，例如：

if (auto [position, length] = get_next_token(text, offset); position >= 0) {
    std::println("pos {}, len {}", position, length);
}

一个非常有用的例子是使用 std::to_chars 函数：

// C++20
if (auto result = std::to_chars(p, last, 42)) {
    auto [ptr, _] = result;
    // 成功处理
} else {
    auto [ptr, ec] = result;
    // 错误处理
}

// C++26
if (auto [ptr, ec] = std::to_chars(p, last, 42)) {
    // 成功处理
} else {
    // 错误处理
}

4. 用户生成的 `static_assert` 消息

static_assert 的第二个参数是一个字符串，表示错误信息。C++26 允许使用编译时用户生成的字符串对象作为错误信息。例如：

static_assert(sizeof(int) == 4, std::format("预期值为 4，实际值为 {}", sizeof(int)));

C++26 中添加的四个语言特性：

为删除的函数指定原因
使用单个下划线声明无名变量
结构化绑定声明作为条件语句
用户生成的 static_assert 消息

这些新特性使得 C++ 代码更加简洁、易读和易于维护。

来源：
mariusbancila.ro/blog/2024/0…

更多内容请查阅 : blog-240910

关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法

[240910] LLM 推理框架性能评估：突破“内存墙” | C++26 新特性概览 (第一部分)

LLM 推理框架性能评估：突破“内存墙”

C++26 新特性概览 (第一部分)

1. 为删除的函数指定原因

2. 使用单个下划线 _ 声明无名变量

3. 结构化绑定声明作为条件语句

4. 用户生成的 static_assert 消息

2. 使用单个下划线 `_` 声明无名变量

4. 用户生成的 `static_assert` 消息