首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
韩师傅
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2
沸点 0
赞
2
返回
|
搜索文章
最新
热门
12GB 小路由器续篇:三信号并联换话题,少跑完整门禁
12GB续篇:正则换台、锚点余弦skip、轻门禁三信号定序少跑完整门禁;skip与rerank分域;LangGraph trace;双QLoRA+llama.cpp CPU。
大模型——来自高维度空间的回应
数学是复杂、也难一眼读懂的;它常常显得冰冷,却更是一代代人把世界规律写进符号里的记录。那它离我们究竟多近、又多远?正是这些符号与结构,帮助我们探索到了更高维度的存在,并把它拉到了我们的身边。
教程:三进程启动——对话(GPU)/ 向量(CPU)/ 重排(CPU)
模型与二进制(先设变量再开终端) 在 每个 要启动进程的终端里,先设好(按你本机只改这一组): 用途 说明 对话 4B(GPU) 如 Qwen3 4B 系、Q4_K_M 档 GGUF 向量(CPU)
链路之外的一刀:语义压缩的独立实验(LlamaIndex + API)
链外压:0/1/2、LI后处理、非全库RAG;API便宜Mac可试。四篇一收。先贷。后读论文QLoRA、旅Agent。
推理与编排:LangChain、LangGraph 与「捞上下文」
12G应用层:LC薄封LG、捞上下文门禁时窗、重排前剔人;llama对vLLM简比。8k本实验非定稿。下篇链外语义压。
12GB 本机实验:上下文链路先跑通——向量、重排与 llama.cpp 三进程
12G本机实验:向量重排与8k,bge+rerank、llama三服务分GPU/CPU。环境累可云API。下篇捞上下文。
INT4 与 Q4(GGUF)量化怎么选:两套话语、与工具怎么绑
4bit不混淆:INT4系偏训练与vLLM部署,Q4系是GGUF本机;硬件×工具表,不背公式。下一篇12G本机实验。
12GB 小模型路由器(推理篇):INT4、vLLM 与双 QLoRA 切换
12GB:INT4+vllm双LoRA切换;max-model-len必写、避vllm._C目录;OpenAI兼容接口。
12GB 小模型路由器(实战篇):12GB 上 QLoRA 与训练环境
12GB上QLoRA/SFT:数据与预期、cu128、快照与GPU自检;加载到首步易OOM,先dry run。推理下篇。
12GB 显存 + INT4 4B + vLLM + 双 QLoRA = 最小模型路由器
12GB 显存上 INT4 底座 + vLLM 双 QLoRA,同底座按请求切能力;本文为引子,串动机与路线,命令在续篇。
下一页
个人成就
文章被点赞
56
文章被阅读
15,899
掘力值
541
关注了
1
关注者
15
收藏集
7
关注标签
14
加入于
2022-08-05