大模型学习笔记(三)

7 阅读8分钟

三、编程工具

3.1 国外 AI 编程工具(付费为主)

  • Cursor:基于大模型的 AI 代码编辑器,支持实时补全、调试、重构,生态成熟,开发者首选工具之一
  • ClaudeCode:Anthropic 推出的专业代码助手,Claude 4.5 为当前编程能力最优 LLM,长上下文、代码理解与工程化能力顶尖

3.2 国内 AI 编程工具(免费 / 商用,合规友好)

  • Trae:字节跳动 AI 原生 IDE,支持 Builder 模式端到端项目生成、设计稿转代码,内置多模型切换,中文交互友好
  • CodeBuddy:腾讯云 AI 代码助手,提供 IDE / 插件 / CLI 三形态,Craft 智能体支持多文件工程生成,适配国内云生态
  • Lingma(通义灵码):阿里云出品,代码补全 / 生成 / 调试能力均衡,深度兼容阿里技术栈,个人版免费易用
  • Qoder:阿里巴巴 Agentic 编程平台,主打仓库级理解与自主任务执行,面向企业级复杂开发场景,支持 CLI 模式

3.3 命令行 AI 编程工具

  • Gemini CLI:Google Gemini 命令行工具,支持终端内代码问答、生成与调试
  • Qoder CLI:阿里终端 AI 编程 Agent,原生适配命令行开发,支持代码库理解与自动化任务执行

补充:DeepSeek 模型定位说明

  • DeepSeek V1:早期开源基础模型,兼顾 NLP 与基础编码任务
  • DeepSeek R3:主打复杂逻辑推理、多轮问答、数学与代码推理,面向高难度用户提问与专业问题求解,是推理场景主力模型

四、Embedding 与向量数据库 4.1Emdedding 相关

4.1.1余弦相似度

  • 定义:衡量两个向量方向相似性的指标,与向量长度无关
  • 取值:[-1, 1],越接近 1 越相似
  • 用途:文本匹配、语义检索、聚类、推荐
  • 公式:cos(θ)=∣∣A∣∣⋅∣∣B∣∣A⋅B​
  • 特点:高维向量场景稳定,是 Embedding 最常用相似度

4.1.2 N 元语法(N-gram)—— 如何提取事物特征度

  • 概念:将文本切分为连续 N 个语言单元(字 / 词)
  • 作用:
    1. 捕捉局部语序特征
    2. 量化文本特征度(重复、搭配、强度)
    3. 弥补词袋模型丢失的顺序信息
  • 示例
    • Unigram(1-gram):AI、编程、工具
    • Bigram(2-gram):AI 编程、编程工具
    • Trigram(3-gram):AI 编程工具

4.1.3 Word2Vec(词向量压缩工具)

  • 定位:经典词嵌入压缩工具,把词变成低维稠密向量
  • 两大架构:
    • CBOW:用上下文预测中心词
    • Skip-gram:用中心词预测上下文
  • 特点:
    • 维度小(50~300),压缩效率高
    • 捕捉语义相似:king - man + woman ≈ queen
  • 局限:无法处理一词多义,无上下文感知

4.1.4 N-gram 特征工程

  • 核心目标:把文本转为可训练的数值特征
  • 常用做法:
    1. 提取 1/2/3-gram,构建词汇表
    2. 统计 TF/TF-IDF 权重
    3. 向量化:one-hot /count/ TF-IDF
  • 用途:文本分类、情感分析、垃圾识别、搜索排序
  • 优势:轻量、可解释、适合小数据 / 传统机器学习

4.1.5 Gensim 工具

  • 定位:Python主题建模与词向量工具库
  • 核心能力:
    • Word2Vec、FastText、Doc2Vec
    • 相似度检索、LSI/LDA 主题模型
    • 高效处理大语料
  • 典型用法:
    • 训练 / 加载词向量
    • 计算词相似度、找近义词
    • 构建简易语义检索系统

4.1.6 关键词解读:邻居(标注、无监督学习)

  • 邻居(Neighbor)向量空间中,与目标向量距离最近的一组向量
  • 无监督学习中的作用:
    • 聚类:同类样本互为邻居
    • 异常检测:远离邻居即为异常
    • 分类:K 近邻(KNN)投票
  • 与标注关系:
    • 少量标注 + 邻居传播 = 半监督学习
    • 无标注时,靠邻居做聚类 / 分组

4.1.7 Embedding 模型选择(附 MTEB 榜单用法)

MTEB 是什么

如何选模型

  1. 看总分:越高综合能力越强
  2. 看任务:检索 / 聚类 / 分类 / 重排分别对应分数
  3. 看维度:768/1024 平衡效果与速度
  4. 看硬件:小模型 CPU 可跑,大模型需 GPU

常用选型建议

  • 追求效果:bge-large、gte-large、jina-embeddings-v2
  • 轻量快速:bge-small、gte-small、minilm
  • 中文友好:bge-base-zh、jina-zh
  • 长文本:jina-long、nomic-embed

4.1.8 向量维度对模型性能的影响

  • 维度越高:
    • 语义表达能力越强,细节捕捉更充分
    • 显存 / 内存占用更大,检索速度变慢
    • 易出现维度灾难,相似度计算不稳定
  • 维度越低:
    • 计算快、存储省,适合高并发场景
    • 语义压缩严重,容易丢失细粒度信息
  • 常用经验值:
    • 轻量场景:256/512 维
    • 通用场景:768 维(最主流)
    • 高精度场景:1024 维

4.1.9 Jina Embedding 套娃模型(Matryoshka Embeddings)

  • 概念:一个模型输出多段嵌套维度向量
    • 如:1024 维 → 可直接截取为 512/256/128 维使用
  • 优势:
    • 一次推理,多维度复用,无需重训
    • 适配不同硬件 / 性能要求,灵活降级
    • 存储与检索成本可动态调整
  • 代表:
    • jina-embeddings-v2 系列全支持套娃结构

4.1.10 单语言模型 vs 多语言模型 Embedding

单语言 Embedding

  • 专注某一语言(如中文、英文)
  • 效果通常优于同量级多语言模型
  • 适合纯中文 / 纯英文业务,精度优先

多语言 Embedding

  • 支持几十至上百种语言
  • 跨语言检索、多语言文档统一库
  • 效果略低于单语言模型,但通用性极强

4.1.10 单语言模型 vs 多语言模型 Embedding

单语言 Embedding

  • 专注某一语言(如中文、英文)
  • 效果通常优于同量级多语言模型
  • 适合纯中文 / 纯英文业务,精度优先

多语言 Embedding

  • 支持几十至上百种语言
  • 跨语言检索、多语言文档统一库
  • 效果略低于单语言模型,但通用性极强

4.1.12 Embedding模型与LLM的区别

维度Embedding 模型LLM(大语言模型)
核心任务文本 → 固定维度向量文本理解、生成、对话、推理
输出形式稠密向量(数值数组)自然语言文本
上下文长度一般较短(512/8192)很长(8k/32k/128k+)
计算量小,推理极快大,推理慢
典型用途检索、聚类、匹配、特征问答、总结、创作、智能体
关系常作为 LLM 应用的检索增强模块可用于复杂决策与生成

4.2 向量数据库

4.2.1 常见向量数据库

  1. FAISS
  • 定位:Facebook AI 开源本地向量检索库
  • 特点:极快、轻量、无服务、内存 / 磁盘双模式
  • 优势:算法最强,适合离线 / 嵌入式 / 小批量
  • 不足:无分布式、无持久化易用封装、无权限管理
  • 适用:研究、demo、本地检索、离线处理

  1. Elasticsearch(ES)
  • 定位:成熟搜索引擎,全文检索 + 向量检索一体
  • 特点:生态完善、可分布式、支持混合查询
  • 优势:企业级稳定、运维成熟、关键词 + 向量混合检索
  • 不足:纯向量性能不如专用库、资源占用高
  • 适用:已有 ES 集群、需要全文 + 向量混合搜索

  1. Milvus
  • 定位:开源云原生分布式向量数据库(国内最主流)
  • 特点:专为向量设计、支持分片副本、高可用
  • 优势:性能强、功能全、中文文档好、社区活跃
  • 不足:部署稍重,需要一定运维
  • 适用:生产环境、高并发、大规模向量检索

  1. Pinecone
  • 定位:托管式云向量数据库(SaaS)
  • 特点:开箱即用、无运维、自动扩缩容
  • 优势:上手零成本、API 简单、适合快速上线
  • 不足:付费、数据在云端、定制性有限
  • 适用:快速开发、中小规模、不想运维数据库

4.2.2 如何将 metadata 管理得更健壮(复杂生产环境方案)

在复杂生产环境中,仅靠简单配置文件无法满足高可用、可扩展、易运维的需求,采用专业化数据库存储 metadata 是实现健壮管理的核心方案,具体选型及思路如下:

一、核心健壮化存储方案

  1. 键值数据库:Redis 适合轻量、高并发、低延迟的 metadata 场景,支持过期策略、主从 / 集群高可用,适合缓存型、会话型元数据管理。
  2. 关系型数据库:PostgreSQL 适合强事务、强一致性、复杂关联查询的 metadata,支持 JSON 字段兼顾半结构化数据,金融、政务等对一致性要求极高的场景首选。
  3. 文档型数据库:MongoDB 适合结构灵活、频繁变更、海量存储的 metadata,天然支持 JSON/BSON,无需预定义表结构,适配微服务、云原生场景下的元数据管理。

二、健壮化额外保障要点

  • 高可用部署:主从、集群、多活架构,避免单点故障
  • 备份与恢复:定时全量 + 增量备份,支持快速回滚
  • 权限管控:细粒度读写权限,防止误操作与越权访问
  • 版本管理:metadata 变更记录与版本回溯,支持审计溯源
  • 监控告警:实时监控存储状态、访问延迟、异常请求