Qwen-72B-Chat-Int8:智能对话的新标杆

138 阅读3分钟

🌟 在人工智能的星辰大海中,Qwen-72B-Chat-Int8 如一颗新星冉冉升起,为智能对话领域带来全新突破。作为阿里云通义千问大模型系列的力作,它凭借 720 亿参数和 Int8 量化技术,实现了高效部署与卓越性能的完美融合。今天,就让我们一探究竟,看看 Qwen-72B-Chat-Int8 如何引领智能对话新潮流。

一、核心优势:多维度卓越表现

  • 海量数据赋能:超 3 万亿 tokens 预训练数据,涵盖中、英、多语言、代码、数学等多领域,为模型深度理解与广泛适用性奠定坚实基础。
  • 性能卓越:在中英文下游任务中全面超越现有开源模型,无论是常识推理、代码生成还是数学解题,都能轻松应对。
  • 词表全面:约 15 万大小的词表,对多语言友好,无需扩展即可增强特定语种能力。
  • 超长上下文:支持 32k 上下文长度,轻松处理长文本,满足复杂对话需求。
  • 灵活指令:通过系统指令,可实现角色扮演、语言风格迁移等多种功能,为对话增添无限可能。

二、技术细节:高效部署的关键

环境要求

  • Python:3.8+
  • PyTorch:2.0+
  • CUDA:建议 11.4+(GPU 用户必看)
  • 显存:至少 82GB(2xA100-80G 或 3xV100-32G)

依赖项安装

确保环境达标后,运行以下命令安装依赖:

bash

pip install "transformers>=4.32.0" accelerate tiktoken einops scipy transformers_stream_generator==0.0.4 peft deepspeed
pip install auto-gptq optimum

量化技术

Int8 量化,让 Qwen-72B-Chat-Int8 在保持高性能的同时,显著提升运行效率,降低资源消耗。具体表现如下:

量化方式MMLUCEval (val)GSM8KHumaneval
BF1674.480.176.464.6
Int873.580.173.562.2
Int473.480.175.361.6

推理速度与显存

不同配置下的推理速度与显存使用情况,为实时交互提供有力保障:

量化方式设置A100-80G GPU 数量上下文长度生成长度速度 (Tokens/s)总 GPU 显存使用
BF16HF + FlashAttn-v22120488.48144.69GB
BF16vLLM21204817.60Pre-Allocated*
.....................

注:vLLM 预分配 GPU 显存,无法检测最大使用量。

三、快速上手:开启对话之旅

示例代码

python

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-72B-Chat-Int8", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen-72B-Chat-Int8",
    device_map="auto",
    trust_remote_code=True
).eval()

response, history = model.chat(tokenizer, "你好", history=None)
print(response)  # 输出:你好!很高兴为你提供帮助。

response, _ = model.chat(tokenizer, "你好呀", history=None, system="请用二次元可爱语气和我说话")
print(response)  # 输出:哎呀,你好哇!是怎么找到人家的呢?是不是被人家的魅力吸引过来的呀~(≧▽≦)/~

注意事项

  • 使用 vLLM 时,需安装指定分支仓库,目前暂不支持 int8 模型。
  • 更多详情,请参考 GitHub 代码仓库

四、评估效果:全方位性能验证

评测任务

涵盖中文理解(C-Eval)、英文理解(MMLU)、代码生成(HumanEval)和数学解题(GSM8K)等权威任务,以及长序列任务和工具使用能力评测。

评测结果

  • 中文评测(C-Eval) :zero-shot 准确率 79.5%,5-shot 准确率 82.9%。
  • 英文评测(MMLU) :0-shot 准确率 74.3%,5-shot 准确率 75.0%。
  • 代码评测(HumanEval) :zero-shot Pass@1 达到 64.6%。
  • 数学评测(GSM8K) :准确率达到 76.4%。

五、结语

Qwen-72B-Chat-Int8 以其卓越性能和高效部署能力,成为智能对话领域的全新标杆。无论是在日常对话、专业领域还是多语言场景中,它都能提供精准、高效、富有创意的对话体验。让我们共同期待,Qwen-72B-Chat-Int8 在未来带来更多惊喜,开启智能对话新时代!

 BuluAI算力平台现已上线,再也不用为算力发愁嘞,​​​​​​​点击官网​​​​​​​了解吧!新用户送50元算力金,快来体验吧!