使用Ray Serve部署AI模型：从创建到生产的全面指南3. 一般架构部署服务的一般架构如下： 4. 部署OpenA

# 使用Ray Serve部署AI模型：从创建到生产的全面指南

## 引言

在现代AI应用中，将复杂的模型服务化以便于在线推理是一个重要的任务。Ray Serve是一个强大的模型服务库，适合用于构建在线推理API。本文的目的在于，通过一个简单的例子，展示如何使用Ray Serve将一个OpenAI链部署到生产环境中。通过这种方式，您可以扩展这个实例来部署自己的自托管模型，灵活地定义所需的硬件资源（GPU和CPU），以便在生产环境中高效运行您的模型。

## 主要内容

### 1. Ray Serve简介

Ray Serve是一个用于构建可扩展的在线推理API的库。它尤其适合系统组合，使您能够使用Python代码构建由多个链和业务逻辑组成的复杂推理服务。

### 2. 安装设置

首先，安装Ray Serve。您可以使用以下命令进行安装：

```bash
pip install ray[serve]

3. 一般架构

部署服务的一般架构如下：

# 0: 导入ray serve和请求
from ray import serve
from starlette.requests import Request

# 1: 定义一个Ray Serve部署
@serve.deployment
class LLMServe:
    def __init__(self) -> None:
        # 所有的初始化代码在这里
        pass

    async def __call__(self, request: Request) -> str:
        # 在这里解析请求并返回响应
        return "Hello World"

# 2: 将模型绑定到部署
deployment = LLMServe.bind()

# 3: 运行部署
serve.api.run(deployment)

# 关闭部署
serve.api.shutdown()

4. 部署OpenAI链与自定义提示

获取OpenAI API密钥并运行以下代码，您将被要求提供API密钥。

from langchain.chains import LLMChain
from langchain_core.prompts import PromptTemplate
from langchain_openai import OpenAI

from getpass import getpass

OPENAI_API_KEY = getpass()

@serve.deployment
class DeployLLM:
    def __init__(self):
        # 我们在这里初始化LLM、模板和链
        llm = OpenAI(openai_api_key=OPENAI_API_KEY)
        template = "Question: {question}\n\nAnswer: Let's think step by step."
        prompt = PromptTemplate.from_template(template)
        self.chain = LLMChain(llm=llm, prompt=prompt)

    def _run_chain(self, text: str):
        return self.chain(text)

    async def __call__(self, request: Request):
        # 1. 解析请求
        text = request.query_params["text"]
        # 2. 运行链
        resp = self._run_chain(text)
        # 3. 返回响应
        return resp["text"]

# 将模型绑定到部署
deployment = DeployLLM.bind()

# 运行部署
PORT_NUMBER = 8282
serve.api.run(deployment, port=PORT_NUMBER)

在服务部署到localhost:8282端口后，可以发送POST请求获取结果。

import requests

text = "What NFL team won the Super Bowl in the year Justin Beiber was born?"
response = requests.post(f"http://localhost:{PORT_NUMBER}/?text={text}")
print(response.content.decode())

常见问题和解决方案

问题1：API访问不稳定

由于某些地区的网络限制，开发者可能需要考虑使用API代理服务以提高访问稳定性。

解决方案：在请求中使用代理设置。

问题2：部署性能问题

解决方案：利用Ray Serve的自动扩展和资源管理功能，分配适当的硬件资源（如CPU和GPU）。

总结和进一步学习资源

使用Ray Serve进行AI模型的在线推理部署是一个强大的解决方案。本文介绍了基本的设置步骤和例子，让您可以快速上手开发自己的服务。更多的自动扩展和资源管理选项，请参考Ray Serve文档。

参考资料

结束语：如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---