openAI Embeddings
- 1.pandas包用于数据处理和分析,提供了DataFrame数据结构,方便进行数据的读取、处理、分析等操作
tiktoken库,是Openai开发的库,用于从模型生成的文本中计算token数量,API本身的输入和输出都是收费的,收费的单位是token数量
- 2.moderation : 已经微调好的用来做监管的模型
model.list 所有模型, retrieve model 某一个模型
chat completions API 聊天补全API,给定一个包含对话的消息列表,返回模型生成的消息作为输出
chat completions 和 completions差不多都是文本内容,只是 chat completion 包含了角色的信息,会是主流应用的model,completions是最简单的文本,
- 3.chat completions API:实现对话任务,聊天机器人,以消息列表作为输入,返回模型生成的消息作为输出。
如果直接打印openai的对象,对象没有重写print方法,有时候会乱码,但是打印字符串不会乱码,
- 4.tiktoken是openAI开发的BPE(byte pair encoding)分词器 ,可以使用tiktoken计算token数量,给定一段文本字符串和一种编码方式,分词器可以将文本字符串切成一系列的token。在英文中,token的长度通常在一个字符到一个单词之间变化(例如,t 或 agent)
pip install --upgrade tiktoken
encode() 字符串变成整数列表
decoder() 将整数列表转成字符串
-
- platform.openai.com/playground 中viewcode 将问题转成代码
- 6.PDF 解析 pdfplumber (Python开源库)github.com/jsvine/pdfp… ,pdf解析,使用MIT协议,PDF是矢量图, 一般图片是位图