Gemini 开放香港了,大陆开发者的 API 能跟着薅吗?实测 3 种方案

6 阅读6分钟

昨天刷朋友圈全是「Google Gemini 正式进军香港」的消息,什么"无须 VPN 即可使用""全民 AI 时代来了"。作为一个每天都在调 API 的人,我第一反应不是"终于能跟 Gemini 聊天了"——而是:API 也放开了吗?免费额度还在吗?大陆开发者能不能跟着沾光?

于是花了一晚上把几种方案都测了一遍,结果有点出乎意料。

先说结论

方案能用吗延迟免费额度适合谁
Google AI Studio 直连❌ 大陆 403--海外/港澳开发者
香港节点中转150-300ms有(Google 免费层)个人开发者/测试
聚合 API 服务80-200ms看平台生产环境/懒人

一句话总结:香港开放的是消费端(gemini.google.com),API 端大陆开发者还是得绕。但好消息是,Gemini 3 Flash 的免费额度依然在,薅羊毛还是可以的。

到底开放了什么?

先搞清楚 Google 这次做了什么。

3 月 16 日,Google 宣布 Gemini 网页版和 Android 端逐步向全体香港用户开放。之前只有 Google Workspace 企业用户能用,现在个人用户也行了。

但注意——这是消费端产品。就是你打开 gemini.google.com,能跟 AI 对话、生成图片那个。

开发者关心的 API(通过 Google AI Studio 或 Vertex AI 调用),没有变化。API endpoint 还是 generativelanguage.googleapis.com,大陆 IP 还是 403。

所以标题党说的"免魔法用 Gemini"——对,但仅限聊天,不是 API。

当前 Gemini 模型和免费额度

既然要薅,先搞清楚能薅什么。截至 2026 年 3 月,Gemini API 的模型矩阵:

模型定位免费层上下文
Gemini 3.1 Pro Preview旗舰推理❌ 仅付费1M tokens
Gemini 3 Flash Preview快速推理✅ 有免费额度1M tokens
Gemini 2.5 Pro上代旗舰✅ 有免费额度1M tokens
Gemini 2.5 Flash上代快速✅ 有免费额度1M tokens

重点:Gemini 3.1 Pro 没有免费层。想白嫖最新旗舰模型?不行。但 Gemini 3 Flash 和 2.5 系列都有免费额度,日常开发测试完全够用。

免费层的限制大概是 15 RPM、1000 RPD,够你写 demo 和小项目了。

方案一:Google AI Studio 直连(海外/港澳限定)

这是最"正统"的方式。去 Google AI Studio 注册,拿 API Key,直接调。

from google import genai

client = genai.Client(api_key="你的API_KEY")

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="用一句话解释什么是 Transformer"
)
print(response.text)

实测结果

大陆网络直连——ConnectionError,意料之中。

开了香港节点之后——正常返回,延迟 200ms 左右。

所以如果你人在香港或者有稳定的海外环境,直连是最省事的。但如果你的服务跑在国内服务器上,这条路走不通。

方案二:自建中转代理

思路很简单:在香港或海外搞台服务器,跑个反向代理,把请求转发到 Google API。

Nginx 配置大概长这样:

server {
    listen 443 ssl;
    server_name gemini-proxy.你的域名.com;

    location /v1beta/ {
        proxy_pass https://generativelanguage.googleapis.com/v1beta/;
        proxy_set_header Host generativelanguage.googleapis.com;
        proxy_ssl_server_name on;
        proxy_connect_timeout 60s;
        proxy_read_timeout 120s;
    }
}

然后 Python 里改一下 endpoint:

import openai

# Gemini API 兼容 OpenAI 协议
client = openai.OpenAI(
    api_key="你的_GEMINI_API_KEY",
    base_url="https://gemini-proxy.你的域名.com/v1beta/openai/"
)

response = client.chat.completions.create(
    model="gemini-3-flash-preview",
    messages=[{"role": "user", "content": "Transformer 的核心创新是什么?"}]
)
print(response.choices[0].message.content)

实测结果

用了一台香港轻量云(某厂 24 元/月那种),延迟 150-300ms,能用但偶尔抖动。关键问题是:

  1. 得自己维护——SSL 证书、服务器续费、Google 封 IP 了得换
  2. 免费额度是 Google 账号级别的——代理不影响,该限还是限
  3. 流式响应要额外配置——Nginx 默认 buffer 会把 SSE 流吞掉

适合有运维能力的个人开发者,不适合团队或生产环境。

方案三:聚合 API 服务

这是我现在实际在用的方案。市面上有不少聚合 API 平台,统一封装了 OpenAI、Claude、Gemini 等模型的接口,改个 base_url 就能切换。

我后来换了 ofox.ai 的聚合接口,原因很简单:国内直连、不用自己维护代理、而且兼容 OpenAI SDK 协议——意味着已有代码改一行就能用。

import openai

client = openai.OpenAI(
    api_key="你的聚合平台_KEY",
    base_url="https://api.ofox.ai/v1"
)

# 调 Gemini
response = client.chat.completions.create(
    model="gemini-3-flash-preview",
    messages=[{"role": "user", "content": "Transformer 的核心创新是什么?"}]
)
print(response.choices[0].message.content)

# 同样的代码,换个 model 名就能调 Claude
response2 = client.chat.completions.create(
    model="claude-sonnet-4-6",
    messages=[{"role": "user", "content": "同样的问题,你怎么看?"}]
)
print(response2.choices[0].message.content)

实测结果

延迟 80-200ms(阿里云/火山云加速),流式响应开箱即用。最大的好处是一套代码同时能调 50 多个模型,对比测试的时候特别方便。

踩坑记录

一晚上测下来踩了不少坑,记录几个关键的:

坑 1:Gemini 3 Pro 已弃用

如果你之前的代码写的是 gemini-3-pro-preview,现在会报错。Google 在 3 月 9 号就把这个模型下线了,得迁移到 gemini-3.1-pro-preview(付费)或者用 gemini-3-flash-preview(免费)。

# ❌ 已弃用,会报 404
model="gemini-3-pro-preview"

# ✅ 新旗舰(付费)
model="gemini-3.1-pro-preview"

# ✅ 免费快速模型
model="gemini-3-flash-preview"

坑 2:免费层 Rate Limit 比文档说的更严

文档说免费层 15 RPM,实际我测下来有时候 8-10 个请求就触发 429 了。怀疑跟 Google 账号的"信任度"有关——新注册的号限制更严。

解决办法:在请求里加重试逻辑。

import time

def call_with_retry(client, **kwargs):
    for attempt in range(3):
        try:
            return client.chat.completions.create(**kwargs)
        except openai.RateLimitError:
            wait = 2 ** attempt * 5  # 5s, 10s, 20s
            print(f"触发限流,等待 {wait}s 后重试...")
            time.sleep(wait)
    raise Exception("重试 3 次仍失败")

坑 3:流式响应在 Nginx 代理后卡住

自建代理时,Gemini 的 SSE 流式响应死活出不来。排查了半天发现是 Nginx 的 proxy_buffering 默认开启,把 chunk 都缓存了。

# 加这三行就好了
proxy_buffering off;
proxy_cache off;
chunked_transfer_encoding on;

坑 4:OpenAI 兼容协议的模型名映射

Gemini API 原生用的是 generativelanguage.googleapis.com/v1beta/openai/ 这个 OpenAI 兼容端点,但模型名有些跟原生 SDK 不一样。比如你用 genai.Client 时模型叫 gemini-3-flash-preview,但走 OpenAI 兼容接口时也是同名——这个倒没坑,只是容易让人以为会不一样。

真正的坑是:不是所有 Gemini 功能都能通过 OpenAI 协议调用。比如图片生成、代码执行这些 Gemini 独有功能,走 OpenAI SDK 调不了,得用原生 SDK。

小结

Google 开放香港 Gemini 这事,对大陆开发者来说象征意义大于实际意义。消费端开放了,API 端没变。但换个角度想,至少说明 Google 在推进 AI 服务的地区覆盖,后面大陆正式开放也不是没可能(虽然不知道要等多久)。

目前实际可行的路线:

  • 个人测试:Google AI Studio + 香港节点,薅 Gemini 3 Flash 免费额度
  • 生产环境:聚合 API 服务,省心省力,一套代码跑多个模型
  • 企业级:Google Cloud 合作伙伴方案(贵,但合规)

Gemini 3 Flash 的能力其实已经很强了,免费额度日常够用。真要上 3.1 Pro 旗舰,那就得掏钱了——不过哪家的旗舰模型不掏钱呢,对吧。