居然JuRan

给我一个酸菜的缸，腌透悲伤 | 无用组织协会会长

大模型教程公众号【码上有模力】

获得徽章 17

赞

255

|

搜索文章

DeepSeek-R1-Distill-Qwen-7B vLLM 部署调用

本文介绍了使用vLLM框架部署和调用DeepSeek-R1-Distill-Qwen-7B模型的方法。vLLM是一个高效的大语言模型推理系统，具有内存管理优化、高吞吐量和易用性等特点。文章提供了环境准

1月前
297
1
评论

DeepSeek-R1-Distill-Qwen-7B vLLM 部署调用

抽丝剥茧的Transformer详解

注意力机制是自然语言处理（NLP）中基于Encoder - Decoder 的**神经机器翻译**(Neural Machine Translation )系统的一种改进。后来，这种机制被用于其他领域

1月前
193
2
评论

抽丝剥茧的Transformer详解

DeepSeek+LoRA+FastAPI微调大模型并暴露接口给后端调用

DeepSeek+LoRA+FastAPI微调大模型并暴露接口给后端调用整体介绍需求和技术企业对于大模型的不同类型个性化需求 SFT（有监督微调）、RAG（检索增强生成）关注：基本概念；分别解

1月前
211
1
评论

DeepSeek+LoRA+FastAPI微调大模型并暴露接口给后端调用

Qwen3-7B-Instruct Windows LMStudio 部署

在本地运行大型语言模型（LLMs）已成为许多开发者和爱好者的热门选择，它提供了隐私性、定制化和离线使用的可能性。虽然像 Ollama 这样的工具提供了强大的命令行界面来管理和运行本地模型，但 **LM

1月前
206
点赞
评论

Qwen3-7B-Instruct Windows LMStudio 部署

Qwen3-8B vLLM 部署调用

Qwen3-8B vLLM 部署调用 vLLM 简介 vLLM 框架是一个高效的大语言模型推理和部署服务系统，具备以下特性：高效的内存管理：通过 PagedAttention 算法，vLLM 实现了

1月前
453
点赞
评论

Qwen3-8B vLLM 部署调用

从零开始学大模型之大语言模型

大语言模型 4.1 什么是 LLM 在前三章，我们从 NLP 的定义与主要任务出发，介绍了引发 NLP 领域重大变革的核心思想——注意力机制与 Transformer 架构。随着 Transforme

2月前
203
3
评论

从零开始学大模型之预训练语言模型

预训练语言模型 3.1 Encoder-only PLM 在上一章，我们详细讲解了给 NLP 领域带来巨大变革注意力机制以及使用注意力机制搭建的模型 Transformer，NLP 模型的里程碑式转变

2月前
196
点赞
评论

从零开始学大模型之预训练语言模型

阿里云多模态大模型岗三面面经

阿里云智能多模态大模型岗三面面经（详细问题+感受）最近面试了阿里云智能集团 - 多模态大模型岗位，三轮技术面，整体体验还不错。问题整体偏常规，但对项目的追问比较细致。这里整理一下完整面经，供准备类

2月前
99
点赞
评论

从零开始学大模型之Transformer 架构

随着 NLP 从统计机器学习向深度学习迈进，作为 NLP 核心问题的文本表示方法也逐渐从统计学习向深度学习迈进。正如我们在第一章所介绍的，文本表示从最初的通过统计学习模型进行计算的向量空间模型、语言模

2月前
247
1
评论

从零开始学大模型之Transformer 架构

全网最全的大模型分词器（Tokenizer）总结

你应该知道大模型的输入输出的单位是token，不是单词，也不是字母【在中文语境，不是词，不是字】，那么，token是什么呢？

2月前
223
2
评论

全网最全的大模型分词器（Tokenizer）总结

个人成就

文章被点赞 256

文章被阅读 45,631

掘力值 2,544

加入于

2019-01-16