开源AI工具升级加速LLM与扩散模型在NVIDIA RTX PC的性能

2 阅读7分钟

AI开发者活动在个人电脑上呈爆炸式增长,这得益于小型语言模型和扩散模型质量的提升,例如FLUX.2、GPT-OSS-20B和Nemotron 3 Nano。与此同时,AI PC框架,包括ComfyUI、llama.cpp、Ollama和Unsloth也取得了功能性进展,其受欢迎程度在过去一年翻了一番,使用PC级模型的开发者数量增长了十倍。开发者不再仅仅是试验生成式AI工作流程,他们正在从数据中心到NVIDIA RTX AI PC的NVIDIA GPU上构建下一代软件堆栈。

在某大型科技展上,某中心宣布了针对AI PC开发者生态系统的多项新更新,包括:

  • 为PC上领先的开源工具提供加速支持:针对小型语言模型的llama.cpp和Ollama,以及针对扩散模型的ComfyUI。
  • 对适用于NVIDIA GPU的主流开源模型进行优化,包括新的LTX-2音视频模型。
  • 一套加速RTX PC和某中心高性能计算系统上智能体AI工作流程的工具。

通过开源AI框架加速推理

某中心与开源社区合作,提升了整个AI PC堆栈的推理性能。

对ComfyUI的持续性能改进 在扩散模型方面,ComfyUI通过PyTorch-CUDA优化了在NVIDIA GPU上的性能,并增加了对NVFP4和FP8格式的支持。这些量化格式分别可实现高达60%和40%的内存节省,并提升性能。开发者将看到使用NVFP4时平均3倍的性能提升,使用NVFP8时平均2倍的性能提升。

ComfyUI的更新包括:

  • NVFP4支持:线性层可以使用NVFP4格式并配合优化的内核运行,与FP16和BF16线性层相比,吞吐量提高了3-4倍。
  • 融合的FP8量化内核:通过消除内存带宽受限的操作来提升模型性能。
  • 融合的FP8反量化内核:在没有第四代Tensor Cores的NVIDIA RTX GPU上,FP8工作负载的性能得到进一步改进。
  • 权重流式处理:利用并发的系统内存和CPU计算流,权重流式处理隐藏了内存延迟,提高了吞吐量,特别是在显存有限的GPU上。
  • 混合精度支持:模型可以在单个网络内组合多种数值格式,实现精细调整以获得最佳精度和性能。
  • RMS与RoPE融合:扩散变换器中常见的、受内存带宽限制的算子被融合,以减少内存使用和延迟。此优化使所有数据类型的DiT模型受益。

这些优化的示例代码可在ComfyUI示例代码库中找到。NVFP4和FP8模型检查点也可在某开源模型库中获取,包括新的LTX-2、FLUX.2、FLUX.1-dev、FLUX.1-Kontext、Qwen-Image和Z-Image。

在RTX AI PC上加速llama.cpp和Ollama

对于小型语言模型,在NVIDIA GPU上的llama.cpp中,专家混合模型的令牌生成吞吐量性能提高了35%,在RTX PC上的Ollama中提高了30%。

llama.cpp的更新包括:

  • GPU令牌采样:将多种采样算法(如TopK、TopP、Temperature、minK、minP和多序列采样)卸载到GPU,提高了响应的质量、一致性和准确性,同时也提升了性能。
  • QKV投影的并发性:支持运行并发的CUDA流以加速模型推理。要使用此功能,请传入 –CUDA_GRAPH_OPT=1 标志。
  • MMVQ内核优化:通过将数据预加载到寄存器中,并通过在其他任务上增加GPU利用率来隐藏延迟,从而加速内核。
  • 更快的模型加载时间:在DGX Spark上模型加载时间提升高达65%,在RTX GPU上提升15%。
  • 在NVIDIA Blackwell GPU上的原生MXFP4支持:在使用Blackwell GPU上硬件级NVFP4第五代Tensor Cores的大型语言模型上,提示词处理速度提升高达25%。

Ollama的更新包括:

  • 默认启用Flash Attention:现已成为许多模型的标准配置。该技术使用"分块"计算注意力,减少GPU显存与系统内存之间的传输次数,以提高推理和内存效率。
  • 内存管理方案:新的方案为GPU分配额外内存,提高了令牌生成和处理速度。
  • API增加LogProbs功能:为开发者解锁了更多能力,适用于分类、困惑度计算和自我评估等用例。
  • 上游GGML库的最新优化

RTX AI PC上的新型高级音视频模型

某中心与某机构正在发布LTX-2模型权重——这是一个先进的高品质音视频模型,可与云端模型竞争,并且可以在您的RTX AI PC或高性能计算系统上运行。这是一个开放的、生产就绪的音视频基础模型,能够生成长达20秒的4K分辨率同步音视频内容。它可以提供高达每秒50帧的帧速率,并为开发者、研究者和工作室提供多模态控制以实现高度可扩展性。

模型权重提供BF16和NVFP8格式。量化后的检查点可减少30%内存占用,使模型能够在RTX GPU和高性能计算系统上高效运行。

用于本地AI的智能体AI工具包

私有本地智能体的应用场景是无限的。但构建可靠、可重复且高质量的私有智能体仍然是一个挑战。当您为了适应PC上有限的显存预算而对模型进行蒸馏和量化时,大型语言模型的质量会下降。随着智能体工作流程在与其它工具或操作交互时需要可靠且可重复的答案,对准确性的要求也随之增加。

为了解决这个问题,开发者通常使用两种工具来提高准确性:微调和检索增强生成。某中心发布了更新,以加速构建智能体AI的整个工作流程。

Nemotron 3 Nano是一个320亿参数的专家混合模型,专为智能体AI和微调而优化。它拥有36亿活跃参数和100万上下文窗口,在编码、指令遵循、长上下文推理和STEM任务等多个基准测试中名列前茅。该模型通过Ollama和llama.cpp针对RTX PC和高性能计算系统进行了优化,并且可以使用Unsloth进行微调。

该模型以其最开放的特性而脱颖而出,权重、配方和数据集都广泛可用。开放的模型和数据集使开发者更容易定制模型。它们避免了冗余的微调,并消除了数据泄露,为稳健高效的工作流程提供了客观的基准测试。

对于检索增强生成,某中心与Docling建立了合作——这是一个用于将文档摄取、分析和处理成机器可理解语言以供检索增强生成管道使用的软件包。Docling针对RTX PC和高性能计算系统进行了优化,与CPU相比可提供4倍的性能。

使用Docling有两种方式:

  • 传统OCR管道:这是一个库和模型的管道,通过PyTorch-CUDA在RTX上加速。
  • 基于视觉语言模型的管道:用于复杂多模态文档的高级管道,可在WSL和Linux环境中通过vLLM使用。

用于音频和视频效果的SDK

某中心视频和音频效果SDK使开发者能够在多媒体管道上应用AI效果,通过背景噪音消除、虚拟背景或眼神交流等功能来提升质量。

最新的更新增强了视频重新打光功能,能在多样化的环境中产生更自然、更稳定的结果,同时将性能提升了3倍,并将模型大小减少了6倍。