Win11 远程调 Qwen3.6-27B：吞吐几乎不掉，C-Eval 从 2.7% 测到 80%Win11 远程调 Q

Win11 远程调 Qwen3.6-27B

吞吐几乎不掉，C-Eval 从 2.7% 测到 80%

系列：AI实战落地 · 推理基座（第 2 篇）上篇：双 A100 部署与 vLLM 两轮调优 GitHub：ai-production-lab 路径：Win11 工作站 → 内网 API → 双 A100 上的 Qwen3.6-27B（R2-A1 生产配置）

第 1 篇把 vLLM 在双 A100 上调到 128K R2-A1 并上线。本篇回答下一个工程问题：真实用户路径（Win11 IDE / Agent 客户端远程调 API）下，性能是否还接近实验室数据？中文能力能否支撑公路运营场景？什么时候该上云端？

先说一个坑：同一模型、同一 75 题，只调整 max_tokens 和 thinking 开关，C-Eval 子集分数从 2.7% 升到 80%——不是模型变聪明，是 harness 配错了。

本篇你能带走什么：

套系 A（性能）：Win11→A100 与 R2-A1 本机 benchmark 的对照表
套系 B（能力）：C-Eval 交通相关 5 科实测 80%，以及 r1→r3 配置踩坑记录
本地 vs 云端旗舰的使用边界决策矩阵
可复现脚本入口（eval/）

实验环境

项	配置
推理服务	A100×2，R2-A1（128K + BF16 KV + prefix + MTP×2）
API	`http://172.16.167.200:50600/v1`，模型 `/models/Qwen3.6-27B`
客户端	Win11 工作站，Python + EvalScope
网络	内网 HTTP（与 Cherry Studio / Cursor 同路径，非 SSH 隧道）
能力定稿	r3 方案 B

上篇部署与调优见第 1 篇；生产启动脚本见 GitHub production/qwen36-27b-128k/docker-run.sh。

为什么要 Win11 远程测

实验室里在 A100 本机跑 benchmark，数字漂亮，但和业务不一致：

维度	A100 本机测	Win11 远程测（本篇）
网络	回环 / 极短	内网 HTTP，与 Cherry/Cursor 一致
代理	无	需配置 `NO_PROXY`（见下）
客户端	shell 脚本	Win11 Python + EvalScope
意义	验证 GPU 配置上限	验证交付路径是否可用

Win11 上若系统或 IDE 走代理，内网请求可能被转发导致超时。当前会话可这样设置：

# 系统环境变量或 PowerShell 当前会话
$env:NO_PROXY = "172.16.0.0/16,localhost,127.0.0.1"

结论先行：性能几乎不掉队，能力可以测，但 harness 必须配对，否则分数会「假低」。

评测设计：两套独立、不要混表

套系	回答什么	工具	能否在 Win11 跑
A 性能	吞吐、prefill、prefix、长生成	`benchmark_r2.py` + EvalScope perf	✅（B5 显存除外）
B 能力	C-Eval 等准确率	EvalScope eval	✅（只调 API，推理在 A100）

GitHub 通用脚本：eval/performance/、eval/capability/。

套系 A：性能 — 与 R2-A1 高度接近

指标	Win11 远程	R2-A1 参考	差异
B1 短请求	0.499 s	~0.49 s	≈
B2 512 token 吞吐	82.36 tok/s	85.01 tok/s	约 −3%
B3 24K prefill	6.976 s	6.957 s	≈
B4 prefix 降幅	51.3%	52.4%	≈
B6 2048 token 吞吐	76.63 tok/s	—	长生成可用
EvalScope perf（512 tok）	~82.4 tok/s，TTFT ~140 ms	—	与 B2 一致

解读：

内网远程调用几乎不损伤 GPU 侧吞吐；Win11 路径可放心作为日常开发入口。
prefix cache 51% 降幅在多轮 Agent / 长 system 场景仍是本地相对云端的核心优势之一。
B5 显存需在 A100 上补测；Win11 本机 nvidia-smi 不代表推理卡。

套系 B：能力 — C-Eval 从 2.7% 到 80% 的教训

测什么

从 C-Eval 52 科中选取与公路智能运营相关的 5 科，每科 15 题，共 75 题：

科目	业务关联
计算机网络	路侧设备、RSU、平台组网
大学编程	算法与系统集成
高中数学	流量统计与定量推理
法学	交通法规与合规
城乡规划	路网与设施布局

说明：这是业务向子集，不是官方全量 52 科 C-Eval，不能与模型卡 91.4% 直接比数值。

三轮配置的教训

轮次	配置	结果	问题
r1	thinking 关，`max_tokens=128`	2.7%	72/75 题未输出到 `答案：X` 就被截断
r2	分科 thinking，`max_tokens=2048`	66.7%	推理科 thinking 占满 2048，高中数学仅 40%
r3（方案 B，定稿）	知识科 thinking 关 + 1024；推理科 thinking 开 + 4096	80.0%	可解释、可复现

r3 分科成绩：

科目	thinking	max_tokens	准确率	溢出
计算机网络	关	1024	93.3%	1
大学编程	开	4096	93.3%	0
高中数学	开	4096	80.0%	3
法学	关	1024	73.3%	2
城乡规划	关	1024	60.0%	2

共 8 题溢出、6 题无答案。城乡规划曾遇 API 连接中断（只完成 6/15 题），补跑合并后凑满 15 题。

方案 B 调用示例

知识科与推理科需分开配参，这是 r3 相对 r2 回升的关键：

# 知识科（计算机网络、法学、城乡规划）：thinking 关，max_tokens=1024
payload = {
    "model": "/models/Qwen3.6-27B",
    "messages": [...],
    "max_tokens": 1024,
    "extra_body": {"chat_template_kwargs": {"enable_thinking": False}},
}

# 推理科（大学编程、高中数学）：thinking 开，max_tokens=4096
payload = {
    "model": "/models/Qwen3.6-27B",
    "messages": [...],
    "max_tokens": 4096,
    "extra_body": {"chat_template_kwargs": {"enable_thinking": True}},
}

80% 怎么理解

可用作：Win11→A100 路径下、交通相关中文选择题的实测能力锚点。
不可用作：官方全量 C-Eval 91.4% 的复现声明。
量级参考：子集 80% 与公开榜单上 GPT-4 系 C-Eval 量级（约 80%+）接近，说明中文知识问答内网可用；与通义 Max / Claude 全量榜仍有 harness 与题量差异。

本地 vs 云端：使用边界

结合 r3 与公开 benchmark 参照（非同 harness 复测，仅看量级）：

场景	建议	原因
IDE 补全、内网短问答	本地 A100	~82 tok/s、无排队、无 token 费
128K 长文 / 固定长 system Agent	本地 A100	prefix 降幅 ~51%
中文领域知识题（交通/法规/网络）	本地 A100	子集 C-Eval 80%，编程/网络 93%
复杂 Agent（多工具、仓库级 SWE）	云端 Claude Opus / Qwen Max	官方 SWE 仍高一档
高峰 burst、弹性扩容	云端	本地 2 卡并发固定
数据不出网	仅本地	合规硬约束

性能上本地稳；能力上中文知识够用；Agent 上限与弹性仍可能需要云端补位。

工程经验小结

1. 能力评测先查 max_tokens，再信分数

128 token 会把 Qwen3.6 测成「2.7% 弱智」——这是 harness 事故，不是模型事故。

2. thinking 与输出长度要配对

推理科开 thinking 时，max_tokens=2048 不够；提到 4096 后大学编程/高中数学明显回升。

3. 性能与能力分开存档

吞吐 82 tok/s 与 C-Eval 80% 互不代表；文档和 Dashboard 不要混一张表。

4. 远程评测要当生产路径测

API 502、连接 reset 会在能力长测里放大。脚本需分科跑、支持补跑合并，并对失败题目标记。

5. 子集分数写进决策，不写进「对标官方」

对外材料应写：「交通相关 5 科×15 题，EvalScope 5-shot，80%」，而非「C-Eval 91.4%」。

如何复现（摘要）

# Win11，clone 后进入 eval 目录
git clone https://github.com/ai-production-lab/ai-production-lab.git
cd ai-production-lab/eval
cp config.env.example config.env   # 改 API 地址

# 套系 A：性能 benchmark
bash performance/run_deploy_benchmark.sh

# 套系 B：C-Eval 能力（需 EvalScope，见 eval/README.md）
bash capability/run_evalscope_capability.sh quick

完整说明见 eval/README.md。

结语

推理基座调优（第 1 篇）解决「A100 上怎么跑快、跑稳」。本篇解决「Win11 远程用起来是否还靠谱、中文能力是否够场景」：

性能：远程路径与 R2-A1 本机 benchmark 差约 3%，可作生产客户端路径。
能力：交通向 C-Eval 子集 80%（方案 B），网络/编程 93%，需正确 harness。
边界：日常中文知识 + 内网 Agent 优先本地；复杂 Agent 与 burst 考虑云端。

系列与资源

「AI实战落地」系列第 2 篇（推理基座 · 评测与边界）。

篇目	主题	状态
第 1 篇	双 A100 部署与 vLLM 两轮调优	掘金 · 知乎
第 2 篇	Win11 远程评测与本地/云端边界（本文）	待发布
第 3 篇	基于 R2-A1 API 的运营 Agent MVP	计划中

可复现资源（ai-production-lab）：

内容	路径
生产配置 R2-A1	production/qwen36-27b-128k/docker-run.sh
评测脚本（通用）	eval/
第 1 篇实验	experiments/qwen36-27b-a100/

下一篇预告：把 OpenAI 兼容 API 接到 Agent 框架，完成公路运营场景第一个可对话 MVP——system prompt、thinking 开关与人机协同边界。

欢迎在评论区交流：你们远程调 vLLM 时，能力榜和性能榜是分开测还是混在一起的？