Qwen-72B-Chat-Int8：智能对话的新标杆🌟 在人工智能的星辰大海中，Qwen-72B-Chat-Int8

🌟 在人工智能的星辰大海中，Qwen-72B-Chat-Int8 如一颗新星冉冉升起，为智能对话领域带来全新突破。作为阿里云通义千问大模型系列的力作，它凭借 720 亿参数和 Int8 量化技术，实现了高效部署与卓越性能的完美融合。今天，就让我们一探究竟，看看 Qwen-72B-Chat-Int8 如何引领智能对话新潮流。

一、核心优势：多维度卓越表现

海量数据赋能：超 3 万亿 tokens 预训练数据，涵盖中、英、多语言、代码、数学等多领域，为模型深度理解与广泛适用性奠定坚实基础。
性能卓越：在中英文下游任务中全面超越现有开源模型，无论是常识推理、代码生成还是数学解题，都能轻松应对。
词表全面：约 15 万大小的词表，对多语言友好，无需扩展即可增强特定语种能力。
超长上下文：支持 32k 上下文长度，轻松处理长文本，满足复杂对话需求。
灵活指令：通过系统指令，可实现角色扮演、语言风格迁移等多种功能，为对话增添无限可能。

二、技术细节：高效部署的关键

环境要求

Python：3.8+
PyTorch：2.0+
CUDA：建议 11.4+（GPU 用户必看）
显存：至少 82GB（2xA100-80G 或 3xV100-32G）

依赖项安装

确保环境达标后，运行以下命令安装依赖：

bash

pip install "transformers>=4.32.0" accelerate tiktoken einops scipy transformers_stream_generator==0.0.4 peft deepspeed
pip install auto-gptq optimum

量化技术

Int8 量化，让 Qwen-72B-Chat-Int8 在保持高性能的同时，显著提升运行效率，降低资源消耗。具体表现如下：

量化方式	MMLU	CEval (val)	GSM8K	Humaneval
BF16	74.4	80.1	76.4	64.6
Int8	73.5	80.1	73.5	62.2
Int4	73.4	80.1	75.3	61.6

推理速度与显存

不同配置下的推理速度与显存使用情况，为实时交互提供有力保障：

量化方式	设置	A100-80G GPU 数量	上下文长度	生成长度	速度 (Tokens/s)	总 GPU 显存使用
BF16	HF + FlashAttn-v2	2	1	2048	8.48	144.69GB
BF16	vLLM	2	1	2048	17.60	Pre-Allocated*
...	...	...	...	...	...	...

注：vLLM 预分配 GPU 显存，无法检测最大使用量。

三、快速上手：开启对话之旅

示例代码

python

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-72B-Chat-Int8", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen-72B-Chat-Int8",
    device_map="auto",
    trust_remote_code=True
).eval()

response, history = model.chat(tokenizer, "你好", history=None)
print(response)  # 输出：你好！很高兴为你提供帮助。

response, _ = model.chat(tokenizer, "你好呀", history=None, system="请用二次元可爱语气和我说话")
print(response)  # 输出：哎呀，你好哇！是怎么找到人家的呢？是不是被人家的魅力吸引过来的呀~(≧▽≦)/~

注意事项

使用 vLLM 时，需安装指定分支仓库，目前暂不支持 int8 模型。
更多详情，请参考 GitHub 代码仓库。

四、评估效果：全方位性能验证

评测任务

涵盖中文理解（C-Eval）、英文理解（MMLU）、代码生成（HumanEval）和数学解题（GSM8K）等权威任务，以及长序列任务和工具使用能力评测。

评测结果

中文评测（C-Eval） ：zero-shot 准确率 79.5%，5-shot 准确率 82.9%。
英文评测（MMLU） ：0-shot 准确率 74.3%，5-shot 准确率 75.0%。
代码评测（HumanEval） ：zero-shot Pass@1 达到 64.6%。
数学评测（GSM8K） ：准确率达到 76.4%。

五、结语

Qwen-72B-Chat-Int8 以其卓越性能和高效部署能力，成为智能对话领域的全新标杆。无论是在日常对话、专业领域还是多语言场景中，它都能提供精准、高效、富有创意的对话体验。让我们共同期待，Qwen-72B-Chat-Int8 在未来带来更多惊喜，开启智能对话新时代！

BuluAI算力平台现已上线，再也不用为算力发愁嘞，点击官网了解吧！新用户送50元算力金，快来体验吧！