使用DeepSeek+本地知识库,尝试从0到1搭建高度定制化工作流(需求分析篇)

73 阅读1分钟

1.需求分析

  • 数据爬取 -> 数据清洗 -> 数据存储为文本文件
  • 文本切片 -> 文本嵌入模型 -> 向量数据库
  • 用户提问 -> 数据召回 -> 注入Prompt -> 生成回答
  • 生成文案 -> 生成配图 -> 发布到平台

2.RAG流程

RAG

3.目录结构(预设)

.
├── xiaohongshu_drafts/    # 存放每日文案
│   └── 小红书_推广文案_2025-02-11.txt
├── xiaohongshu_pics/      # 存放小红书配图
│   └── 小红书_配图_2025-02-11-1.png
│   └── ...
├── vector_store/          # 向量数据库索引
│   └── index.pkl          # 索引文件
│   └── index.faiss        # faiss向量数据库
├── data/                  # 存放爬取数据
└── file_handler.py        # 文件监控与处理
└── crawler/
│   └── ip_crawler.py      # 代理池建立
│   └── data_crawler.py    # 数据爬取
├── analysis/
│   └── data_analysis.py   # 数据分析
│   └── pic_analysis.py    # 配图生成
├── post/
│   └── xiaohongshu_post.py    # 小红书发布
│   └── ...                    # 后续更新其他平台发布
├── docs/
│   └── preset.txt         # 系统提示词
│   └── prompt.txt         # 用户提示词
├── main.py                # 主程序

4.功能模块

4.1.数据爬取

  • 爬取领域有关数据
  • 爬取代理建立代理池

4.2.数据分析

  • 数据清洗
  • 数据分析

4.3.数据监控与存储

  • 监控每日新生成的文案
  • 文案存储到知识库

4.4.文案生成

  • 通过调用deepseek api生成文案
  • 通过Janus进行配图生成

4.5.数据发布

  • 发布到小红书
  • 发布到其他平台

5.技术选型

所有功能模块均采用python实现,python的库比较完善。暂时没有开发Web界面的打算,如果后续需要抽取配置文件以及提供工作流统一模板,可能使用Flask或者Django框架。