GTC 2026 + GPT-5.4 实测:推理成本砍到1/10,AI直接操控电脑|周报

21 阅读1分钟

上周AI圈密度拉满,GTC发布了三颗芯片、GPT-5.4开放Computer Use、Anthropic搞起了AI审查AI的代码流水线、英伟达还开源了一个Agent专用大模型。

这篇聊聊我对这些事的理解,重点放在对开发者实际有用的部分。

GTC 2026:三颗芯片各打一个位置

黄仁勋这次搞了个意外——把原定2028年量产的Feynman架构提前拿出来秀了。台积电A16(1.6nm),首次用硅光子光互连,带宽密度提升10倍。

但对我们写代码的人来说,今年下半年量产的 Vera Rubin 更值得关注。核心数据:

  • 台积电3nm + HBM4,单卡288GB显存
  • FP4推理算力突破50 PFLOPS
  • 单Token生成成本降到原来的1/10

推理成本降到1/10意味着什么?算一笔账:

# 假设当前 GPT-4 级别模型的推理成本
current_cost_per_1k_tokens = 0.03  # 美元
monthly_tokens = 50_000_000  # 5000万 token/月

current_monthly = current_cost_per_1k_tokens * monthly_tokens / 1000
future_monthly = current_monthly / 10

print(f"当前月费: ${current_monthly:,.0f}")
print(f"Vera Rubin 铺开后: ${future_monthly:,.0f}")
print(f"节省: ${current_monthly - future_monthly:,.0f}/月")

# 输出:
# 当前月费: $1,500
# Vera Rubin 铺开后: $150
# 节省: $1,350/月

原来因为成本卡住的应用场景,很快就能跑通了。

第三颗是 LPU推理专用芯片——英伟达收了Groq技术团队后做的。片上230MB SRAM,80TB/s带宽,首Token延迟低于0.1秒。这颗芯片的意义是:训练和推理正在彻底分家。

GPT-5.4 Computer Use:四个场景实测

GPT-5.4的原生Computer Use不是截图识别,是直接控制鼠标键盘。OpenAI说成功率75%,比人类平均分还高。

我测了四个场景,直接说结果:

场景一:Excel数据分析 — 打开销售表,做透视表,画柱状图。40秒搞定,零失误。

场景二:预订会议室 — Google Calendar找空闲时间、建会议、发邀请。中间点错一次,总耗时1分钟。

场景三:部署Web应用 — 最流畅的场景。50秒完成SSH + 拉代码 + 装依赖 + 重启。

场景四:填报销单 — 翻车了。PDF识别没问题,但字段映射搞错,金额填到日期栏。

如果你想用Python搭一套类似的自动化流程,思路大概是这样:

import pyautogui
import subprocess
import time

class SimpleComputerAgent:
    """简易桌面自动化 Agent(GPT-5.4 之前的土办法)"""
    
    def deploy_app(self, host, repo_path):
        """场景三的脚本化实现"""
        commands = [
            f"ssh {host} 'cd {repo_path} && git pull origin main'",
            f"ssh {host} 'cd {repo_path} && pip install -r requirements.txt'",
            f"ssh {host} 'sudo systemctl restart myapp'",
        ]
        for cmd in commands:
            result = subprocess.run(cmd, shell=True, capture_output=True, text=True)
            if result.returncode != 0:
                print(f"[FAIL] {cmd}\n{result.stderr}")
                return False
            print(f"[OK] {cmd}")
        return True

    def check_service(self, host, port=8080):
        """部署后健康检查"""
        import urllib.request
        try:
            resp = urllib.request.urlopen(f"http://{host}:{port}/health", timeout=10)
            return resp.status == 200
        except Exception as e:
            print(f"健康检查失败: {e}")
            return False

# 用法
agent = SimpleComputerAgent()
agent.deploy_app("prod-server", "/opt/myapp")
agent.check_service("prod-server")

结论:GPT-5.4操作电脑已经到了"简单任务能用、复杂任务还会翻车"的阶段。按这个曲线,年底可靠性到90%不是问题。

AI审查AI代码:工具链闭环正在形成

Anthropic给Claude Code加了代码审查功能。背景很现实——企业里AI写的代码越来越多,总不能让工程师一行行去读,那AI省的时间又花回去了。

这套东西接CI/CD流程,每次commit自动跑。如果你用GitHub Actions,配置大概长这样:

# .github/workflows/ai-review.yml
name: AI Code Review
on:
  pull_request:
    types: [opened, synchronize]

jobs:
  review:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
        with:
          fetch-depth: 0
      
      - name: Get changed files
        id: diff
        run: |
          echo "files=$(git diff --name-only origin/main...HEAD | tr '\n' ' ')" >> $GITHUB_OUTPUT
      
      - name: AI Review
        env:
          ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
        run: |
          # 把diff内容发给Claude做review
          git diff origin/main...HEAD | curl -s https://api.anthropic.com/v1/messages \
            -H "x-api-key: $ANTHROPIC_API_KEY" \
            -H "anthropic-version: 2023-06-01" \
            -H "content-type: application/json" \
            -d @- << EOF
          {
            "model": "claude-sonnet-4-20250514",
            "max_tokens": 4096,
            "messages": [{"role": "user", "content": "Review this git diff for bugs, security issues, and code quality:\n$(git diff origin/main...HEAD | head -500)"}]
          }
          EOF

更有意思的是趋势本身。AI写代码的工具链正在从单点走向闭环:

  1. AI写代码(Copilot/Cursor/Claude Code)
  2. AI审查代码(现在这一步)
  3. AI发现bug后自己修(已有雏形)
  4. AI从需求到部署全自动(Agent终极形态)

我们正在从第二步往第三步走,速度比多数人预期的快。

Nemotron 3 Super:芯片公司做大模型的逻辑

英伟达开源了Nemotron 3 Super,1200亿总参数,120亿激活参数,支持100万Token上下文。用了Mamba-2 + MoE混合架构,专为Agent场景优化。

如果你有英伟达的卡,本地跑一下试试:

# 用 vLLM 部署 Nemotron 3 Super
pip install vllm

# 单卡 A100/H100 就能跑(只激活120亿参数)
python -m vllm.entrypoints.openai.api_server \
    --model nvidia/Nemotron-3-Super-120B-Instruct \
    --tensor-parallel-size 1 \
    --max-model-len 65536 \
    --port 8000

# 测试 Agent 场景:多步工具调用
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nvidia/Nemotron-3-Super-120B-Instruct",
    "messages": [
      {"role": "system", "content": "You are an AI agent with access to tools: [search, calculator, code_executor]. Use them to solve tasks step by step."},
      {"role": "user", "content": "查询今天BTC价格,计算如果在3万美元买入10个,现在盈亏多少"}
    ],
    "temperature": 0.1
  }'

英伟达做模型的逻辑跟苹果做Final Cut Pro一样——软硬件一体化是最深的护城河。Nemotron跑在Blackwell上的性能一定比跑在AMD卡上好。

其他几件值得关注的事

DeepSeek 100万Token上下文。我拿到测试资格了,丢了20万字的合同进去问第47页第三段说了什么,答对了。长上下文正在从PPT数字变成真能用的东西。

智谱GLM-5-Turbo。39元/月体验卡包3500万Token,同时API涨价20%。典型的To C做流量、To B赚利润。

中国大模型调用量首超美国。IDC数据,2月份单周突破5万亿Token。国内AI落地比很多人以为的快。

这周最该记住的一件事

推理成本降到1/10。

模型再强,用不起就是论文里的数字。推理成本从一万降到一千,市场直接扩大十倍。

过去两年的主旋律是"模型越做越大"。从今年开始,主旋律切换成了降成本、扩覆盖、让更多人用得上。英伟达降硬件成本,DeepSeek用更少算力做更好模型,OpenAI把能力下放到免费版。

一个80分但便宜的模型,商业价值往往大于一个95分但贵十倍的模型。


关注公众号 92year,每天一篇AI工具深度实测