模块一:Java开发者的大模型基础知识构建
Java知识迁移类(核心知识点与大模型开发对应关系)
一、Java 基础语法 / 核心类库 ↔ 大模型基础开发
1. 集合框架(List/Map/Set/ConcurrentHashMap)
对应大模型场景
- 存储对话历史上下文(List)
- 缓存Prompt 模板、向量库检索结果
- 多线程场景下安全缓存大模型返回结果
核心作用:大模型交互的数据载体,所有上下文、参数、返回值都用集合承载。
2. IO / NIO / HttpClient
对应大模型场景
- 调用大模型HTTP API(OpenAI、通义千问、文心一言)
- 流式读取大模型 SSE 流式输出(打字机效果)
- 读取本地文档、PDF 做RAG 知识库
核心作用:Java 与大模型通信的基础。
3. 多线程 / 线程池 / CompletableFuture
对应大模型场景
- 并发调用多个大模型接口
- 异步处理向量检索 + 大模型推理
- 高并发场景下限流、削峰、异步响应
核心作用:大模型接口慢、耗时,必须用异步 / 并发提升性能。
4. JSON 序列化(Jackson/Gson)
对应大模型场景
- 构造请求 Prompt JSON
- 解析大模型返回的 choices、message、total_tokens
- 工具调用(Function Call)参数解析
核心作用:Java ↔ 大模型 的数据翻译官。
二、Java 进阶特性 ↔ 大模型高级能力
1. 反射 / 注解
对应大模型场景
- 自动注册工具函数(Function Call)
- 动态解析大模型要求调用的 Java 方法
- 低代码生成 Prompt、配置大模型参数
核心作用:实现大模型工具调用自动化。
2. JVM 调优(内存、GC、堆外内存)
对应大模型场景
- 部署轻量向量库(内存占用大)
- 大模型应用高并发下OOM 优化
- 流式响应长时间任务的 GC 控制
核心作用:保证大模型应用稳定运行不崩溃。
3. 函数式编程(Stream/Lambda)
对应大模型场景
- 清洗 RAG 检索文档
- 处理多轮对话上下文截断
- 批量处理向量数据
核心作用:大模型上下文预处理核心工具。
三、SpringBoot/SpringCloud ↔ 大模型应用开发(最核心!)
这是企业 90% 大模型项目使用的技术栈。
1. Spring MVC / WebFlux
对应大模型场景
- 提供大模型对话接口(HTTP / SSE)
- WebFlux 实现高并发流式响应
- 对接前端聊天页面(WebSocket + SSE)
2. Spring Cache / Redis
对应大模型场景
- 缓存对话历史(会话管理)
- 缓存高频 Prompt 模板
- 缓存向量检索结果(加速 RAG)
3. Spring AI(官方大模型框架)
对应大模型场景
- 一键对接所有大模型(OpenAI / 阿里 / 百度 / 讯飞)
- 自动管理对话上下文
- 内置 RAG、Function Call、Prompt 模板
- 统一 API,切换大模型无需改代码
Spring AI = Java 大模型开发的标准框架所有 Spring 知识点在这里直接复用。
4. 微服务(Feign/Gateway/Sentinel)
对应大模型场景
- 网关统一限流大模型调用
- 多实例部署大模型代理服务
- 服务熔断:大模型挂了不影响业务
四、数据库 / 向量库 ↔ RAG 知识库(大模型落地必备)
1. MySQL / PostgreSQL
对应大模型场景
- 存储用户对话记录
- 存储知识库元数据
- 存储Prompt 日志、调用日志
2. 向量数据库(Milvus / PGVector / Chroma)
对应大模型场景
- 存储文本向量 Embedding
- 相似度检索(RAG 核心)
- Java 通过 SDK 调用向量库
Java 技术对应:JDBC / RestTemplate / 专用客户端
五、Java 中间件 ↔ 大模型系统架构
1. Redis
- 对话上下文缓存
- 限流(大模型接口有调用限额)
- 分布式锁
2. MQ(RabbitMQ/RocketMQ/Kafka)
- 异步处理大模型推理任务
- 削峰:防止瞬间请求打崩大模型
- 日志 / 埋点异步上报
3. Elasticsearch
- RAG 文档全文检索
- 对话记录检索
- 大模型调用日志分析
六、Java 安全 / 部署 ↔ 大模型生产环境
1. JWT / 权限控制
- 大模型接口鉴权
- 防止未授权调用
2. Docker / K8s
- Java 大模型应用容器化部署
- 弹性扩缩容(大模型高峰期扩容)
3. 监控(Prometheus/Grafana)
- 监控大模型调用耗时、失败率
- 监控 JVM 内存、CPU
AI/ML基础补充类(极简必备,够用即可)
大模型核心术语
一、基础核心概念
- LLM(大语言模型):基于海量文本训练、能理解/生成人类语言的超大AI模型(如GPT、Llama、文心一言)。
- 预训练:用全网通用海量无标注数据,让模型先学语法、常识、逻辑,打好基础。
- 微调(Fine-tuning):预训练后,用小众标注数据针对性优化,让模型适配特定场景(客服、代码、医疗)。
- 参数(权重):模型里的“记忆知识单元”,参数越多,模型存储知识、理解能力越强。
- 算力(GPU/显存):训练和跑大模型的硬件能力,显存越大,能加载更大模型、处理更长文本。
二、训练&数据相关
- 语料:训练用的文本数据(书籍、网页、论文、代码等)。
- token(词元):模型理解文字的最小单位,一个汉字/字母/标点都可能是1个token;计费、上下文都按token算。
- 上下文窗口(Context Window):模型能一次性读懂的最大文本长度(比如4K、128K上下文,越长能读整篇文档)。
- 对齐(RLHF/DPO):让模型输出符合人类价值观、诚实无害、贴合指令,不说瞎话、不违规。
- RLHF:人类反馈强化学习
- DPO:直接偏好优化(更轻量化的对齐方式)
- 蒸馏:把大模型能力压缩到小模型,小模型跑得快、占资源少,效果接近大模型。
三、推理&生成能力
- 推理(Inference):训练好的模型实际运行、生成回答的过程(日常聊天就是推理)。
- Prompt(提示词):给模型下达的指令、问题、上下文,决定模型输出质量。
- Completion(补全):模型根据prompt自动续写、生成内容。
- Temperature(温度):控制生成随机性:0=严谨固定(写代码、查资料),1=脑洞创意(写文案、作诗)。
- Top-P/Top-K:筛选生成文字的候选范围,配合温度控制多样性。
- 流式输出(Stream):文字逐字实时弹出,不是一次性出全文(聊天框常见效果)。
四、架构&技术进阶
- Transformer:大模型底层核心架构,靠注意力机制实现理解长文本,所有主流LLM都基于它。
- 注意力机制(Attention):模型能重点关注文本里关键内容,比如问答时聚焦问题关键词。
- Encoder/Decoder:
- Encoder:理解输入(翻译、分类用)
- Decoder:生成输出(聊天、续写用)
- 主流LLM多为Decoder-only架构
- 量化(INT8/INT4):压缩模型精度,降低显存占用,能在本地低配电脑跑大模型。
- RAG(检索增强生成):模型+私有知识库/实时数据,先查资料再回答,解决“模型知识陈旧、不懂私有数据”问题。
- Agent(智能体):能自主思考、规划、调用工具(搜素、查接口、算数据),完成复杂多步骤任务。
五、效果&评价指标
- 困惑度(Perplexity):越低说明模型语言越通顺、逻辑越合理。
- 幻觉(Hallucination):模型编造不存在的事实、数据、文献,一本正经说瞎话。
- 泛化能力:模型没见过的问题,也能正确回答的能力。
- 零样本/少样本(Zero/Few-shot):
- 零样本:不给例子,直接提问就能答
- 少样本:给1~3个示例,模型照着格式回答
线上课程
吴恩达《机器学习入门》(Coursera,只看前3章,了解机器学习基本流程、监督学习/无监督学习的差异,无需深入编程实现,重点建立基础认知)