在机器学习中,信息检索是最重要的应用之一,范围从数字图书馆、音乐检索到搜索引擎。
我们无法想象今天的生活离不开的一件事是搜索引擎,例如 Google 或 Bing,它们是信息检索最成功的应用之一。
信息检索 (IR) 是检索信息、文档和元数据的过程,这些信息、文档和元数据描述数据或文本、图像和声音数据库,这些数据与用户从非常大的数据源中提出的查询相关。查询是用户以与另一个人交谈以询问信息的方式给出的正式陈述。例如,我们在搜索引擎的搜索栏中输入的内容。
在传统的 ML 项目中,数据库中的数据可以相应地进行操作,以不同的格式存储,可以馈送到 IR 的布尔、向量或概率模型,其中结果可能与查询相关或不相关,然后对结果进行排序基于它与查询的相关性。
但是在我贡献了一点点的更大的项目中,在我的组织中,限制是我们应该避免操纵数据或创建重复以避免冗余。简而言之,该数据库不应该被操纵,因为它被许多其他部门使用,我们应该避免复制它。
现在我们必须直接使用 SQL/NO-SQL 查询从数据库中获取数据。但限制是我们人类通常不会以 SQL/NO-SQL 查询的格式进行交谈。这就需要将自然语言格式转换为 SQL/NO-SQL 查询格式。
为了克服这些限制,我们需要将这种自然语言查询转换为 SQL/NO-SQL 查询,为此,我们需要一个生成模型并根据我们组织的数据属性对其进行训练。由于每个组织的内部数据集看起来完全不同,因此我们必须在这些属性上训练生成模型。
GPT-3 出现了,更准确地说是 GPT-3 的 Codex-DaVinci 后代模型。Generative Pre-trained Transformer 3 ( GPT-3 ) 是OpenAI 的一种自回归 语言模型,它使用深度学习来生成类似人类的文本。
Open AI 登录/注册页面获取API Key
OpenAI Codex 是 GPT-3 的后代;其训练数据包含自然语言和来自公开来源的数十亿行源代码,包括公共 GitHub 存储库中的代码。OpenAI Codex 最精通 Python,但它也精通 JavaScript、Go、Perl、PHP、Ruby、Swift 和 TypeScript 等十几种语言,甚至还有 Shell。
给定初始文本作为提示,它将生成继续提示的文本。使用 Codex 模型在我们的自定义数据集上训练 GPT-3 也变得更加容易。它经过训练可以将自然语言转化为代码(趣闻:Github 的 CoPilot 由 Codex 提供支持)。
Codex-DaVinci(模型名称)可以生成数十种语言,我们使用 SQL/No-SQL 查询生成。
您的 API 密钥
您还可以按照以下步骤使用 GPT-3 制作 IR 模型:
- 在 OpenAI 上注册并获取 API 密钥。
从这里您可以获得分配给您的 ID 的 API 密钥
- 注册后,选择代码完成。
它专门用于完成代码完成(CodeX)
- 打开 Play Ground,从示例中选择以查看特定语言的代码如何生成或给出相应的 Prompt to Generate。
- 要在数据集上微调模型,请按照微调选项卡中提到的步骤进行操作。这里提示是用户的输入,完成是我们想要作为输出的查询。
根据您的需要自定义 GPT-3 的 Descendant Codex 模型,祝您编码愉快!!