主题
经过上次年前的尝鲜,终于在我的个人电脑上跑起了,接着尝试了1.5b的小模型以及嵌入模型的验证,分享过程实战如下
模型下载
如果没有构建LlamaEdge环境,请参考 win下的LlamaEdge,性能不够,技术来凑,这里有前期的环境准备
魔塔社区上有下载地址,但是少了一些说明,导致开始有点儿搞不清楚状况,因此推荐 HF Mirror 与LlamaEdge比较匹配的命令指引
下载好后,运行如下命令,记得替换相对应的模型名称和路径
wasmedge --dir .:. --nn-preload default:GGML:AUTO:./DeepSeek/DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf llama-api-server.wasm -p chatml --threads 12
至于提示模板的选择-p chatml,官网上的内容有些遗漏,具体请参考 这里
便于匹配不同的上层对话应用层,以下是本地运行的api服务的执行
嵌入模型
原理
下载嵌入模型
curl -LO https://hf-mirror.com/second-state/All-MiniLM-L6-v2-Embedding-GGUF/resolve/main/all-MiniLM-L6-v2-ggml-model-f16.gguf
执行命令
这里注意下win下的换行输入用^代替斜杠
wasmedge --dir .:. ^
--nn-preload default:GGML:AUTO:./DeepSeek/DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf ^
--nn-preload embedding:GGML:AUTO:all-MiniLM-L6-v2-Q4_K_M.gguf ^
llama-api-server.wasm -p deepseek-chat-2,embedding ^
--model-name DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M,all-MiniLM-L6-v2-ggml-model-f16 --ctx-size 8192,384 --threads 12
对话工具CherryStudio
CherryStudio 是一款集多模型对话、知识库管理、AI 绘画、翻译等功能于一体的全能 AI 助手平台。 CherryStudio的高度自定义的设计、强大的扩展能力和友好的用户体验,使其成为专业用户和 AI 爱好者的理想选择。无论是零基础用户还是开发者,都能在 CherryStudio 中找到适合自己的AI功能,提升工作效率和创造力。
此处改成本地的即可
知识库文件
这里的知识库切片处理还不算完善,完整文档的内容切片还没有处理,因此内容上传512内容限制,貌似Dify有处理,可结合分析,本次主要是对提示词的内容和对话的机制进行了验证
提示内容
跟踪了后台的接口输入,其提示内容的限定
剩余待验证问题
- 格式问题,类似于官网api的思考模型显示的内容模式
- 大文件段落切分问题,可能导致内容错乱
- 数据介质为非文本,数据库介质的探索
- unsloth模型微调+知识库模式