使用 GPT-3 从数据库中检索信息在机器学习中，信息检索是最重要的应用之一，范围从数字图书馆、音乐检索到搜索引擎。我

在机器学习中，信息检索是最重要的应用之一，范围从数字图书馆、音乐检索到搜索引擎。

我们无法想象今天的生活离不开的一件事是搜索引擎，例如 Google 或 Bing，它们是信息检索最成功的应用之一。

信息检索 (IR) 是检索信息、文档和元数据的过程，这些信息、文档和元数据描述数据或文本、图像和声音数据库，这些数据与用户从非常大的数据源中提出的查询相关。查询是用户以与另一个人交谈以询问信息的方式给出的正式陈述。例如，我们在搜索引擎的搜索栏中输入的内容。

在传统的 ML 项目中，数据库中的数据可以相应地进行操作，以不同的格式存储，可以馈送到 IR 的布尔、向量或概率模型，其中结果可能与查询相关或不相关，然后对结果进行排序基于它与查询的相关性。

但是在我贡献了一点点的更大的项目中，在我的组织中，限制是我们应该避免操纵数据或创建重复以避免冗余。简而言之，该数据库不应该被操纵，因为它被许多其他部门使用，我们应该避免复制它。

现在我们必须直接使用 SQL/NO-SQL 查询从数据库中获取数据。但限制是我们人类通常不会以 SQL/NO-SQL 查询的格式进行交谈。这就需要将自然语言格式转换为 SQL/NO-SQL 查询格式。

为了克服这些限制，我们需要将这种自然语言查询转换为 SQL/NO-SQL 查询，为此，我们需要一个生成模型并根据我们组织的数据属性对其进行训练。由于每个组织的内部数据集看起来完全不同，因此我们必须在这些属性上训练生成模型。

GPT-3 出现了，更准确地说是 GPT-3 的 Codex-DaVinci 后代模型。Generative Pre-trained Transformer 3 ( GPT-3 ) 是OpenAI 的一种自回归语言模型，它使用深度学习来生成类似人类的文本。

Open AI 登录/注册页面获取API Key

OpenAI Codex 是 GPT-3 的后代；其训练数据包含自然语言和来自公开来源的数十亿行源代码，包括公共 GitHub 存储库中的代码。OpenAI Codex 最精通 Python，但它也精通 JavaScript、Go、Perl、PHP、Ruby、Swift 和 TypeScript 等十几种语言，甚至还有 Shell。

给定初始文本作为提示，它将生成继续提示的文本。使用 Codex 模型在我们的自定义数据集上训练 GPT-3 也变得更加容易。它经过训练可以将自然语言转化为代码（趣闻：Github 的 CoPilot 由 Codex 提供支持）。

Codex-DaVinci（模型名称）可以生成数十种语言，我们使用 SQL/No-SQL 查询生成。