01-OpenAI-Translator 介绍

126 阅读2分钟

需求分析

GPT-4多语言任务 已经取得了质的提升 image.png

翻译:一个长期存在的沟通需求 image.png

成本分析:人力 vs GPT

image.png

gpt3.5 3000字的 4.5美刀 3000字 按照10000 token计算

pdf上传翻译 的数据安全

数据安全:在线翻译需上传整个文件

image.png

考虑问题 需要将文件给到别人 要考虑敏感数据等

数据安全考虑

大模型解决的问题

  • GPT 服务方式:一定程度上解决了完整文件上传问题
  • API调用方式:拆分文档,无需上传整份文件
    • 每一个token请求 都是单独的请求 不是完成的文件内容
    • 调度的模型 也不会是同一个
  • OpenAI 隐私协议:具有相对可靠的契约精神和法律保障
  • 私有化大模型:端到端解决隐私安全问题
    • gpu 网络带宽的费用 成本高

OpenAI-Translator 产品定义与功能规划

版本1.0

  • 支持 PDF 文件格式解析
  • 支持英文翻译成中文。
  • 支持 OpenAI 和 ChatGLM 模型。
  • 通过 YAML 文件或命令行参数灵活配置。
  • 模块化和面向对象的设计,易于定制和扩展。

产品 使用示例

image.png

版本2.0

  • 支持图形用户界面 (GUI), 提升易用性。
  • 添加对保留源 PDF 的原始布局的支持。
  • 服务化:以API形式提供翻译服务支持。
  • 添加对其他语言的支持

OpenAI-Translator 技术方案与架构设计

设计思路

image.png

PDF 解析: pdfplumber介绍

github.com/jsvine/pdfp…

image.png

OpenAI-Translator 模块设计

image.png

核心模块

  • PDF文档解析(PDFParser)模块
  • 文档导出(Writter)模块
  • 大模型(LLMs)接入模块
  • 参数解析器(ArgParser)模块
  • 日志(Logger)模块
  • 提示词(Prompt)模块--PromptTemplate