本地使用 Google GPU运行 Ollama

1,538 阅读1分钟

许多电脑缺乏运行 Ollama 的强大 GPU,导致大量用户无法享受本地大型模型带来的便利,如文章优化、会议纪要摘要和英文邮件撰写等。现有一项新方法,可让 Ollama 本地调用 Google Colab 的免费 GPU,以极速生成 AI 答案。

第一步,自然是要有一个 Google 账号,此处不再教学,随意搜一下都有各种文章来教你

第二步,访问我已经做好的 Ollama.ipynb colab.research.google.com/drive/1JNOr…

第三步,注册 Ngrok(免费) 并获取自己的 Token,注册地址dashboard.ngrok.com/get-started… Token填入

第四步,colab ipynb文件中的3 段里面的token=”Your Ngrok token”,将 Your Ngrok token 替换成你的 Token

第五步,选择 GPU T4

第六步,按ipynb内的1 2 3 步骤逐步执行,运行完 3 段之后会获得一个xxxxxxx.ngrok-free.app的地址

第七步,在电脑上安装ollama,可以在ollama.com/download这里获取 ollama,支持MacOS,Linux,Windows 全平台

第八步,在你的电脑上设置环境变量export OLLAMA_HOST=https://xxxxxxx.ngrok-free.app /

第九步,执行ollama run 模型名,例如ollama run gemma等待模型载入,此时你看到的看似是在本地运行,实质是调用了远程Colab 的 T4 GPU

运行完成以后你就可以向他输入问题提问获得回答了,也可以使用更多的 App 来调用ollama,例如 OpenAi-Translator 翻译工具设置为 ollama,从此再也不用科学上网来使用 ChatGPT ,也不用怕被封号了。

注意:Google Colab的 GPU 免费的版本是有时间限制的,每天 12 个小时,如果觉得好你可以购买,Pay as you go,可以 90 天使用 100 个GPU 单位。