openAI Embeddings

69 阅读1分钟
  • 1.pandas包用于数据处理和分析,提供了DataFrame数据结构,方便进行数据的读取、处理、分析等操作 tiktoken库,是Openai开发的库,用于从模型生成的文本中计算token数量,API本身的输入和输出都是收费的,收费的单位是token数量
  • 2.moderation : 已经微调好的用来做监管的模型 model.list 所有模型, retrieve model 某一个模型 chat completions API 聊天补全API,给定一个包含对话的消息列表,返回模型生成的消息作为输出 chat completions 和 completions差不多都是文本内容,只是 chat completion 包含了角色的信息,会是主流应用的model,completions是最简单的文本,
  • 3.chat completions API:实现对话任务,聊天机器人,以消息列表作为输入,返回模型生成的消息作为输出。 如果直接打印openai的对象,对象没有重写print方法,有时候会乱码,但是打印字符串不会乱码,
  • 4.tiktoken是openAI开发的BPE(byte pair encoding)分词器 ,可以使用tiktoken计算token数量,给定一段文本字符串和一种编码方式,分词器可以将文本字符串切成一系列的token。在英文中,token的长度通常在一个字符到一个单词之间变化(例如,t 或 agent) pip install --upgrade tiktoken encode() 字符串变成整数列表 decoder() 将整数列表转成字符串
    1. platform.openai.com/playground 中viewcode 将问题转成代码
  • 6.PDF 解析 pdfplumber (Python开源库)github.com/jsvine/pdfp… ,pdf解析,使用MIT协议,PDF是矢量图, 一般图片是位图