虽然人们对 GenAI 的企业使用进行了雄心勃勃的讨论,但它可能就从这里开始,使用个人程序员可以使用的各种简陋工具。
许多观察家预测,2024 年将是企业将OpenAI 的 GPT-4等生成式人工智能转化为实际企业应用的一年。最有可能的是,此类应用程序将从最简单的基础设施开始,将 GPT-4 等大型语言模型与一些基本数据管理结合在一起。
企业应用程序将从简单的任务开始,例如搜索文本或图像以找到与自然语言搜索的匹配项。
实现这一目标的完美候选者是名为 SuperDuperDB 的 Python 库,该库由今年成立的风险投资支持的同名公司创建。
SuperDuperDB 不是数据库,而是位于MongoDB或 Snowflake 等数据库与大型语言模型或其他 GenAI 程序之间的接口。
该接口层使对公司数据执行几个非常基本的操作变得简单。在聊天提示中使用自然语言查询,人们可以比典型的关键字搜索更广泛地查询现有的公司数据集(例如文档)。例如,人们可以将产品的图像上传到图像数据库,然后通过显示图像并查找匹配来查询该数据库。
同样,可以通过键入主题或功能从视频存档中检索视频中的时刻。语音消息记录可以作为文本记录进行搜索,成为基本的语音邮件助手。
该技术还适用于希望使用专有企业数据改进人工智能程序的数据科学家和机器学习工程师。
例如,为了“微调”图像识别模型等人工智能程序,必须将现有的图像数据库连接到机器学习程序。挑战在于如何将图像数据传入和传出机器学习程序,以及如何定义训练过程的变量,例如最小化损失。SuperDuperDB 提供简单的函数调用来简化所有这些事情。
其中许多函数的一个关键方面是将不同的数据类型(文本、图像、视频、音频)转换为向量,即可以相互比较的数字字符串。这样做允许 SuperDuperDB 执行“相似性搜索”,例如,将文本短语的向量与充满语音邮件转录的数据库进行比较,以检索与查询最匹配的消息。
请注意,SuperDuperDB 不是一个像 Pinecone 这样的矢量数据库,一个商业程序。这是一种更简单的向量组织形式,称为“向量索引”。
SuperDuperDB 程序是开源的,可以像典型的 Python 安装一样通过命令行进行安装,也可以作为预构建的 Docker 容器进行加载。
使用 SuperDuperDB 的第一步可以是从头开始设置数据存储,也可以使用外部数据存储。无论哪种情况,您都需要一个数据存储库,例如 MongoDB 或基于 SQL 的数据库。
SuperDuperDB 通过所谓的“编码器”处理所有数据,包括新创建的数据和从数据库获取的数据,编码器允许程序员定义数据类型。这些编码类型——文本、音频、图像、视频等——可以作为“文档”存储在 MongoDB 中,或者作为表模式存储在基于 SQL 的数据库中。当非常大的数据项(例如视频文件)超出 MongoDB 或 SQL 数据库的容量时,也可以将其存储在本地存储中。
选择或创建数据集后,可以从 SciKit-Learn 等库导入神经网络模型,也可以使用非常基本的内置神经网络清单,例如 Transformer(原始大型语言模型)。人们还可以从 OpenAI 和 Anthropic 等商业服务中调用 API。让模型进行预测的核心功能是通过简单调用 SuperDuperDB 内置的“.predict”函数来完成的。
当使用大型语言模型或稳定扩散或 Dall-E 等图像模型时,神经网络将通过执行向量相似性搜索来寻求从数据库中检索答案。这就像调用“.like”函数并向其传递查询字符串一样简单。
通过使用 SuperDuperDB 组装多个阶段的功能,可以制作更复杂的应用程序,例如使用相似性搜索从数据库中检索项目,然后将这些项目传递到分类器神经网络。
该公司添加了一些功能,使应用程序更像是一个生产系统。它们包括一个名为 Listeners 的服务,每当底层数据库更新时,该服务就会重新运行预测。SuperDuperDB 中的各种功能也可以作为单独的守护进程运行,以提高性能。
今年将见证 SuperDuperDB 等程序的巨大发展,使其在生产方面更加强大。您可以期待 SuperDuperDB 与其他重要的新兴基础设施(例如LangChain 框架)和商业工具(例如 Pinecone 矢量数据库)一起发展。
虽然有很多关于 GenAI 的企业使用的雄心勃勃的讨论,但它可能就从这里开始,使用个人程序员可以使用的各种简陋工具。