最近很多开发者在接 OpenAI-compatible、Claude、Gemini 兼容接口时,容易只看模型列表和 token 单价。实际接到业务里以后,更容易出问题的地方通常是成功率、首 token、P95 延迟、流式中断、错误结构和 usage 返回。
我把日常排查经验整理成了一个小工具:绿光api(apijiance.com)。它的定位很窄:做 API endpoint 检测和风险初筛。它不提供账号、Key、上游通道或托管服务,只帮助开发者在正式接入前看清接口表现。
这篇文章不评价任何具体服务,只整理一套接入前可以复用的 endpoint 初筛方法。
为什么不能只看价格
接口成本不只是标称 token 单价,而是一次可用响应的交付成本。
常见隐性成本包括:
- 请求失败后需要重试。
- 首 token 很慢,用户等待时间变长。
- P95 延迟高,平均值看起来还行,线上却经常卡。
- 流式输出中途断开,需要额外兜底。
- 模型响应能力和标称模型明显不一致。
- 错误结构不透明,排障时间变长。
- 高峰期失败率上升,需要备用方案。
所以在接入新的 AI API endpoint 前,我更建议先做小样本验收,而不是直接接生产流量。
接入前重点看哪些指标
1. 连续成功率
不要只测一次“你好”。至少固定模型和 prompt,连续请求 10 到 20 次,记录成功、失败、超时、空响应和错误类型。
单次成功只能说明刚才没挂,不能证明稳定。
2. 首 token 和 P95 延迟
很多接口连接不慢,但首 token 很慢。对聊天、客服、Agent 工作流来说,用户最先感知的是多久开始输出。
平均耗时也不够。一个接口 10 次里 8 次很快、2 次特别慢,平均值可能还行,但用户实际会明显感觉卡。P95 更能反映尾部体验。
3. 流式输出完整性
现在很多 AI 应用依赖 stream。非流式能跑,不代表流式稳定。
需要看:
- 是否真的逐步返回 token。
- SSE 格式是否标准。
- 中途是否断开。
- 断开后是否有明确错误。
- SDK 是否能正常解析。
4. 错误结构
可靠接口不等于永远不报错,而是报错时能看懂原因。
建议故意请求一个不存在的模型,看它是否明确返回 model not found 或类似错误。如果鉴权失败、模型不存在、限流、上游超时都被包装成“系统繁忙”,后续线上排障会很痛苦。
5. usage 返回
如果接口返回 usage,要看输入输出 token 是否大致对得上。还要关注失败、超时、空响应、重试这些边界场景下的记录是否清楚。
低价接口如果失败率高、重试多、记录不透明,真实使用成本可能更高。
6. Key 安全边界
测试时不要直接放生产 Key。建议使用低权限、低额度、可随时作废的测试 Key。
任何要求你提供完整账号、生产 Key、后台截图或敏感业务配置的流程,都应该谨慎。
一个最小测试流程
我通常会这样跑:
- 使用低权限测试 Key。
- 固定模型和 prompt。
- 连续请求 10 到 20 次。
- 单独测试 stream。
- 故意请求一个不存在的模型。
- 跑一个长上下文任务。
- 跑一个严格 JSON / schema 输出任务。
- 对照 usage 返回。
- 换高峰时间复测。
- 先走小流量灰度。
这套流程不能保证某个 endpoint 长期稳定,但可以过滤掉很多明显不透明、不稳定、不适合生产接入的风险。
绿光api 在这里做什么
绿光api / apijiance.com 做的是 API endpoint 检测和风险初筛,主要看接口可达、鉴权、模型响应、延迟、流式响应、usage 信号和 Key 安全边界。
它不是代理服务,不提供账号、Key、上游通道或托管服务,也不承诺任何第三方 endpoint 长期稳定。
它更适合做正式接入前的一次快速体检:先生成一份 endpoint 检测报告,再结合小流量灰度、长期监控和业务侧判断决定是否继续接入。