LlamaEdge【第二弹】deepSeek-r1实战

193 阅读2分钟

主题

经过上次年前的尝鲜,终于在我的个人电脑上跑起了,接着尝试了1.5b的小模型以及嵌入模型的验证,分享过程实战如下

模型下载

如果没有构建LlamaEdge环境,请参考 win下的LlamaEdge,性能不够,技术来凑,这里有前期的环境准备

魔塔社区上有下载地址,但是少了一些说明,导致开始有点儿搞不清楚状况,因此推荐 HF Mirror 与LlamaEdge比较匹配的命令指引 image.png 下载好后,运行如下命令,记得替换相对应的模型名称和路径

wasmedge  --dir .:. --nn-preload default:GGML:AUTO:./DeepSeek/DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf   llama-api-server.wasm -p chatml --threads 12

至于提示模板的选择-p chatml,官网上的内容有些遗漏,具体请参考 这里

image.png 便于匹配不同的上层对话应用层,以下是本地运行的api服务的执行 image.png

嵌入模型

原理

image.png

下载嵌入模型

curl -LO https://hf-mirror.com/second-state/All-MiniLM-L6-v2-Embedding-GGUF/resolve/main/all-MiniLM-L6-v2-ggml-model-f16.gguf

执行命令

这里注意下win下的换行输入用^代替斜杠

wasmedge --dir .:. ^
   --nn-preload default:GGML:AUTO:./DeepSeek/DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf ^
   --nn-preload embedding:GGML:AUTO:all-MiniLM-L6-v2-Q4_K_M.gguf ^
   llama-api-server.wasm -p deepseek-chat-2,embedding ^
    --model-name DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M,all-MiniLM-L6-v2-ggml-model-f16   --ctx-size 8192,384 --threads 12

对话工具CherryStudio

CherryStudio 是一款集多模型对话、知识库管理、AI 绘画、翻译等功能于一体的全能 AI 助手平台。 CherryStudio的高度自定义的设计、强大的扩展能力和友好的用户体验,使其成为专业用户和 AI 爱好者的理想选择。无论是零基础用户还是开发者,都能在 CherryStudio 中找到适合自己的AI功能,提升工作效率和创造力。 此处改成本地的即可 image.png

知识库文件

这里的知识库切片处理还不算完善,完整文档的内容切片还没有处理,因此内容上传512内容限制,貌似Dify有处理,可结合分析,本次主要是对提示词的内容和对话的机制进行了验证 image.png

提示内容

跟踪了后台的接口输入,其提示内容的限定 image.png

剩余待验证问题

  • 格式问题,类似于官网api的思考模型显示的内容模式
  • 大文件段落切分问题,可能导致内容错乱
  • 数据介质为非文本,数据库介质的探索
  • unsloth模型微调+知识库模式