如何访问和使用 Google Gemini API 密钥(附示例)

2,368 阅读6分钟
  • 您可以免费访问 Gemini API 密钥,而无需设置云计费。谷歌使这个过程变得简单。
  • 目前,Google 正在为文本和文本与视觉模型提供 Gemini Pro 模型,以便通过 API 使用。
  • 您可以通过 API 将图像输入 Gemini Pro 的视觉模型,并通过编码示例检查其多模式功能。

在Gemini AI 发布后,谷歌也为其 Gemini 模型发布了 API 访问权限。目前,该公司正在提供对 Gemini Pro 的 API 访问,包括纯文本模型和文本和视觉模型。这是一个有趣的版本,因为到目前为止,Google 尚未向 Bard 添加视觉功能,因为它运行的是纯文本模型。有了这个 API 密钥,您终于可以立即在本地计算机上测试Gemini 的多模式功能。关于这一点,让我们在本指南中了解如何访问和使用 Gemini API。

Google Gemini API 密钥目前对于文本和视觉模型都是免费的。它将免费提供到明年初全面上市。因此,您每分钟最多可以发送 60 个请求,而无需设置 Google Cloud 结算或产生任何费用。

在您的计算机上设置 Python 和 Pip

  • 请参阅我们的指南并在您的PC 或 Mac上安装 Python 和 Pip。您需要安装Python 3.9或以上版本。
  • 如果您有 Linux 计算机,您可以按照我们的教程在 Ubuntu 或其他发行版上安装 Python 和 Pip。
  • 您可以在终端中运行以下命令来验证计算机上的Python 和 Pip安装。它应该返回版本号。
python -V
pip -V

  • 安装成功后,运行以下命令来安装 Google 的 Generative AI依赖项。
pip install -q -U google-generativeai

如何获取 Gemini Pro API 密钥

  • 接下来,前往makersuite.google.com/app/apikey (访问)并使用您的 Google 帐户登录。

  • 在 API 密钥下,单击“在新项目中创建 API 密钥”按钮。

  • 复制 API 密钥并保密。请勿公开发布或共享 API 密钥。

如何使用 Gemini Pro API 密钥(纯文本模型)

与 OpenAI 类似,谷歌也可以直接使用其 Gemini API 密钥进行开发和测试。我已经使代码变得非常简单,以便一般用户测试和使用它。在此示例中,我演示了如何通过 API 密钥使用 Gemini Pro Text 模型。

  • 首先,启动您选择的代码编辑器。如果您是初学者,只需安装Notepad++(访问)。对于高级用户来说,Visual Studio Code(访问)是一个很棒的工具。
  • 接下来,复制以下代码并将其粘贴到代码编辑器中。
import google.generativeai as genai

genai.configure(api_key='PASTE YOUR API KEY HERE')

model = genai.GenerativeModel('gemini-pro')

response = model.generate_content("What is the meaning of life?")

print(response.text)
  • 在代码编辑器中,粘贴您的 Gemini API 密钥。正如您所看到的,我们定义了“gemini-pro”模型,这是一个纯文本模型。此外,我们还添加了一个查询,您可以在其中提出问题。

  • 现在,保存代码并为文件命名。确保.py在最后添加。我已命名我的文件gemini.py并将其保存在桌面上。

  • 接下来,启动终端并运行以下命令以移动到桌面。
cd Desktop
  • 进入终端桌面后,只需运行以下命令即可使用 Python执行该文件。gemini.py
python gemini.py

  • 现在它将回答您在文件中设置的问题gemini.py。

  • 您可以在代码编辑器中更改问题gemini.py,保存它,然后再次运行该文件以在终端中获得新的响应。这就是您如何使用 Google Gemini API 密钥访问纯文本 Gemini Pro 模型。

如何使用 Gemini Pro API 密钥(文本和视觉模型)

在此示例中,我将向您展示如何与 Gemini Pro 多模式模型进行交互。它尚未在 Google Bard 上上线,但通过 API,您可以立即访问它。值得庆幸的是,这个过程再次非常简单且无缝。

  • 在代码编辑器中打开一个新文件并粘贴以下代码。
import google.generativeai as genai
import PIL.Image

img = PIL.Image.open('image.jpg')

genai.configure(api_key='PASTE YOUR API KEY HERE')

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(["what is the total calorie count?", img])

print(response.text)
  • 请务必粘贴您的 Gemini API 密钥。在这里,我们使用的gemini-pro-vision模型是文本和视觉模型。

  • 现在,将文件保存在桌面上并.py在文件名末尾添加。我已经在这里命名了geminiv.py。

  • 在代码的第三行中,如您所见,我将 AI 指向image.jpg以确切名称保存在我的桌面上的文件。无论您要处理什么图像,请确保将其保存在与geminiv.py文件相同的位置,并且文件名与正确的扩展名相同。您可以传递最大 4MB 的本地 JPG 和 PNG 文件。

  • 在第六行代码中,您可以提出与图像相关的问题。由于我正在喂食与食物相关的图像,因此我要求 Gemini Pro 计算总卡路里数。
  • 是时候在终端中运行代码了。只需移动到桌面(在我的例子中),然后一一运行以下命令。如果您进行了任何更改,请务必保存文件。
cd Desktop
python geminiv.py

  • 视觉 Gemini Pro 模型直接回答了这个问题。你可以提出进一步的问题,并要求AI解释推理。

  • 您也可以提供不同的图像,但请确保匹配图像文件名,更改代码中的问题,然后geminiv.py再次运行该文件以获取新的响应。

如何以聊天格式使用 Gemini Pro API 密钥

得益于unconv ( GitHub ) 的简洁代码,您可以使用 Gemini AI API 密钥在终端窗口中与 Gemini Pro 模型聊天。这样,您不必更改代码中的问题并重新运行 Python 文件来获取新的输出。您可以在终端窗口本身中继续聊天。

最重要的是,Google 本身就实现了聊天历史记录,因此您无需手动附加响应并在数组或列表中自行管理聊天历史记录。通过一个简单的功能,Google 将所有对话历史记录存储在聊天会话中。下面是它的工作原理。

  • 打开代码编辑器并粘贴以下代码。
import google.generativeai as genai

genai.configure(api_key='PASTE YOUR API KEY HERE')

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat()

while True:
    message = input("You: ")
    response = chat.send_message(message)

    print("Gemini: " + response.text)
  • 像往常一样,粘贴您的 API 密钥,与上述部分类似。

  • 现在,将文件保存在桌面或您喜欢的位置。确保.py在最后添加。我已将其命名为geminichat.py文件。

  • 现在,启动终端并移至桌面。之后,运行该geminichat.py文件。
cd Desktop
python geminichat.py

  • 您现在可以轻松地继续对话,并且它还会记住聊天记录。这是使用 Google Gemini API 密钥的另一种好方法。

这些是一些示例,您可以尝试通过 API 检查 Google Gemini 的功能。我喜欢这样一个事实:Google 已将其视觉模型提供给爱好者和开发人员尝试,并将其与 OpenAI 的 DALL-E 3 和 ChatGPT 进行比较。虽然 Gemini Pro 视觉模型没有击败 GPT-4V 模型,但它仍然相当不错。我们正在等待与 GPT-4 型号相媲美的 Gemini Ultra 的推出。