Chat with RTX安装

513 阅读1分钟

What

  • chat with RTX是英伟达发布的本地大模型推理框架,可以用一张30/40系显卡在本地完成7b/13b模型的推理,目前适配了mistral和llama两个开源模型
  • 本地部署模型的优点是响应快速,并且能更好的保障用户的数据隐私
  • 但是受限于模型参数大小,感知到的模型智能程度一定会逊色于API服务

前置条件

  • 一张30/40系显卡(8G显存)
  • 科学上网环境

安装步骤

Step1 下载并解压缩

前往在英伟达官网(www.nvidia.com/en-us/ai-on…

Step2 安装

  • 首先打开科学上网环境
  • 压缩包内从小到大包含四个预训练模型(其中带int的是量化后版本)
    • mistral7b_int4_quant_weights
    • mistral7b_hf
    • llama13_int4_awq_weights
    • llama13_hf

image.png

  • 安装程序会根据本机配置选择恰当的模型,在3060ti上安装的就是最小的mistral7b_int4_quant_weights
  • 如果未开启科学上网,这里会提示Chat With RTX安装失败

Step3 安装依赖包

  • Chat with RTX打包了一个python3.10的环境,但是可能会缺少依赖导致运行报错,可以根据报错信息手动安装缺失的依赖