昨天刷朋友圈全是「Google Gemini 正式进军香港」的消息,什么"无须 VPN 即可使用""全民 AI 时代来了"。作为一个每天都在调 API 的人,我第一反应不是"终于能跟 Gemini 聊天了"——而是:API 也放开了吗?免费额度还在吗?大陆开发者能不能跟着沾光?
于是花了一晚上把几种方案都测了一遍,结果有点出乎意料。
先说结论
| 方案 | 能用吗 | 延迟 | 免费额度 | 适合谁 |
|---|---|---|---|---|
| Google AI Studio 直连 | ❌ 大陆 403 | - | - | 海外/港澳开发者 |
| 香港节点中转 | ✅ | 150-300ms | 有(Google 免费层) | 个人开发者/测试 |
| 聚合 API 服务 | ✅ | 80-200ms | 看平台 | 生产环境/懒人 |
一句话总结:香港开放的是消费端(gemini.google.com),API 端大陆开发者还是得绕。但好消息是,Gemini 3 Flash 的免费额度依然在,薅羊毛还是可以的。
到底开放了什么?
先搞清楚 Google 这次做了什么。
3 月 16 日,Google 宣布 Gemini 网页版和 Android 端逐步向全体香港用户开放。之前只有 Google Workspace 企业用户能用,现在个人用户也行了。
但注意——这是消费端产品。就是你打开 gemini.google.com,能跟 AI 对话、生成图片那个。
开发者关心的 API(通过 Google AI Studio 或 Vertex AI 调用),没有变化。API endpoint 还是 generativelanguage.googleapis.com,大陆 IP 还是 403。
所以标题党说的"免魔法用 Gemini"——对,但仅限聊天,不是 API。
当前 Gemini 模型和免费额度
既然要薅,先搞清楚能薅什么。截至 2026 年 3 月,Gemini API 的模型矩阵:
| 模型 | 定位 | 免费层 | 上下文 |
|---|---|---|---|
| Gemini 3.1 Pro Preview | 旗舰推理 | ❌ 仅付费 | 1M tokens |
| Gemini 3 Flash Preview | 快速推理 | ✅ 有免费额度 | 1M tokens |
| Gemini 2.5 Pro | 上代旗舰 | ✅ 有免费额度 | 1M tokens |
| Gemini 2.5 Flash | 上代快速 | ✅ 有免费额度 | 1M tokens |
重点:Gemini 3.1 Pro 没有免费层。想白嫖最新旗舰模型?不行。但 Gemini 3 Flash 和 2.5 系列都有免费额度,日常开发测试完全够用。
免费层的限制大概是 15 RPM、1000 RPD,够你写 demo 和小项目了。
方案一:Google AI Studio 直连(海外/港澳限定)
这是最"正统"的方式。去 Google AI Studio 注册,拿 API Key,直接调。
from google import genai
client = genai.Client(api_key="你的API_KEY")
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="用一句话解释什么是 Transformer"
)
print(response.text)
实测结果:
大陆网络直连——ConnectionError,意料之中。
开了香港节点之后——正常返回,延迟 200ms 左右。
所以如果你人在香港或者有稳定的海外环境,直连是最省事的。但如果你的服务跑在国内服务器上,这条路走不通。
方案二:自建中转代理
思路很简单:在香港或海外搞台服务器,跑个反向代理,把请求转发到 Google API。
Nginx 配置大概长这样:
server {
listen 443 ssl;
server_name gemini-proxy.你的域名.com;
location /v1beta/ {
proxy_pass https://generativelanguage.googleapis.com/v1beta/;
proxy_set_header Host generativelanguage.googleapis.com;
proxy_ssl_server_name on;
proxy_connect_timeout 60s;
proxy_read_timeout 120s;
}
}
然后 Python 里改一下 endpoint:
import openai
# Gemini API 兼容 OpenAI 协议
client = openai.OpenAI(
api_key="你的_GEMINI_API_KEY",
base_url="https://gemini-proxy.你的域名.com/v1beta/openai/"
)
response = client.chat.completions.create(
model="gemini-3-flash-preview",
messages=[{"role": "user", "content": "Transformer 的核心创新是什么?"}]
)
print(response.choices[0].message.content)
实测结果:
用了一台香港轻量云(某厂 24 元/月那种),延迟 150-300ms,能用但偶尔抖动。关键问题是:
- 得自己维护——SSL 证书、服务器续费、Google 封 IP 了得换
- 免费额度是 Google 账号级别的——代理不影响,该限还是限
- 流式响应要额外配置——Nginx 默认 buffer 会把 SSE 流吞掉
适合有运维能力的个人开发者,不适合团队或生产环境。
方案三:聚合 API 服务
这是我现在实际在用的方案。市面上有不少聚合 API 平台,统一封装了 OpenAI、Claude、Gemini 等模型的接口,改个 base_url 就能切换。
我后来换了 ofox.ai 的聚合接口,原因很简单:国内直连、不用自己维护代理、而且兼容 OpenAI SDK 协议——意味着已有代码改一行就能用。
import openai
client = openai.OpenAI(
api_key="你的聚合平台_KEY",
base_url="https://api.ofox.ai/v1"
)
# 调 Gemini
response = client.chat.completions.create(
model="gemini-3-flash-preview",
messages=[{"role": "user", "content": "Transformer 的核心创新是什么?"}]
)
print(response.choices[0].message.content)
# 同样的代码,换个 model 名就能调 Claude
response2 = client.chat.completions.create(
model="claude-sonnet-4-6",
messages=[{"role": "user", "content": "同样的问题,你怎么看?"}]
)
print(response2.choices[0].message.content)
实测结果:
延迟 80-200ms(阿里云/火山云加速),流式响应开箱即用。最大的好处是一套代码同时能调 50 多个模型,对比测试的时候特别方便。
踩坑记录
一晚上测下来踩了不少坑,记录几个关键的:
坑 1:Gemini 3 Pro 已弃用
如果你之前的代码写的是 gemini-3-pro-preview,现在会报错。Google 在 3 月 9 号就把这个模型下线了,得迁移到 gemini-3.1-pro-preview(付费)或者用 gemini-3-flash-preview(免费)。
# ❌ 已弃用,会报 404
model="gemini-3-pro-preview"
# ✅ 新旗舰(付费)
model="gemini-3.1-pro-preview"
# ✅ 免费快速模型
model="gemini-3-flash-preview"
坑 2:免费层 Rate Limit 比文档说的更严
文档说免费层 15 RPM,实际我测下来有时候 8-10 个请求就触发 429 了。怀疑跟 Google 账号的"信任度"有关——新注册的号限制更严。
解决办法:在请求里加重试逻辑。
import time
def call_with_retry(client, **kwargs):
for attempt in range(3):
try:
return client.chat.completions.create(**kwargs)
except openai.RateLimitError:
wait = 2 ** attempt * 5 # 5s, 10s, 20s
print(f"触发限流,等待 {wait}s 后重试...")
time.sleep(wait)
raise Exception("重试 3 次仍失败")
坑 3:流式响应在 Nginx 代理后卡住
自建代理时,Gemini 的 SSE 流式响应死活出不来。排查了半天发现是 Nginx 的 proxy_buffering 默认开启,把 chunk 都缓存了。
# 加这三行就好了
proxy_buffering off;
proxy_cache off;
chunked_transfer_encoding on;
坑 4:OpenAI 兼容协议的模型名映射
Gemini API 原生用的是 generativelanguage.googleapis.com/v1beta/openai/ 这个 OpenAI 兼容端点,但模型名有些跟原生 SDK 不一样。比如你用 genai.Client 时模型叫 gemini-3-flash-preview,但走 OpenAI 兼容接口时也是同名——这个倒没坑,只是容易让人以为会不一样。
真正的坑是:不是所有 Gemini 功能都能通过 OpenAI 协议调用。比如图片生成、代码执行这些 Gemini 独有功能,走 OpenAI SDK 调不了,得用原生 SDK。
小结
Google 开放香港 Gemini 这事,对大陆开发者来说象征意义大于实际意义。消费端开放了,API 端没变。但换个角度想,至少说明 Google 在推进 AI 服务的地区覆盖,后面大陆正式开放也不是没可能(虽然不知道要等多久)。
目前实际可行的路线:
- 个人测试:Google AI Studio + 香港节点,薅 Gemini 3 Flash 免费额度
- 生产环境:聚合 API 服务,省心省力,一套代码跑多个模型
- 企业级:Google Cloud 合作伙伴方案(贵,但合规)
Gemini 3 Flash 的能力其实已经很强了,免费额度日常够用。真要上 3.1 Pro 旗舰,那就得掏钱了——不过哪家的旗舰模型不掏钱呢,对吧。