AI-基础概念

李子栗子梨

2025-03-28 170 阅读5分钟

不排除累了，或者怕被时代淘汰的恐惧衍生出来的厌弃，或者是目前对AI的营销氛围，其实大部分只是对openApi的封装，目的仅是获得风投；导致自己不愿去主动学习AI，但这是时代发展的前进趋势，目前希望自己能够平静下来，去学习一些基础知识

tokens

在AI模型中，tokens（令牌/词元）是文本处理的基本单位，用于将输入的文本拆分为模型可理解的片段

tokens 是什么？
- 定义：token是模型处理文本时的最小单位，可以是：
  - 单词（如hello作为一个token）
  - 子词（如“unhappy”拆分为"un"和"happy"两个tokens）
  - 标点/符号（如？或，各占1token）
  - 非拉丁字符（如中文通常一个汉字约等于 1-2个tokens，依赖编码方式）
- 示例：
  - 英文句子"Hello, world!"拆分为["Hello", ",", "world", "!"] → 4个tokens
  - 中文句子 "你好，世界！" → 可能拆分为 ["你", "好", "，", "世", "界", "！"] → 6个tokens
tokens与资源消耗的关系
- 计费依据：AI服务的费用通常按token量计算（输入+输出总和）。
  - 例如：100万tokens ≈ 可处理约70万英文单词或50万汉字（实际因文本复杂度而异）。
- 上下文限制：模型单次交互的token数有上限（如GPT-4通常支持128k tokens），超出需截断或分段处理。
如何优化token使用？
- 精简输入
- 限制输出长度
- 监控用量

大模型推理，大模型部署，大模型训练

以上三个术语是AI大模型开发与应用的核心环节，具体含义如下

大模型推理
- 定义：使用训练好的大模型对输入数据生成预测结果的过程
- 场景：
  - 用户提问时，模型实时生成答案（如chatGPT对话）
  - 自动补全代码，翻译文本，分析图像等任务
- 技术要点：
  - 依赖高性能计算资源（GPU/TPU）加速响应
  - 需要优化推理速度与成本（如模型量化，缓存机制）
- 例如：输入法国的首都是哪里？，模型输出“巴黎”
大模型部署
- 定义：将训练好的模型集成到生产环境，供实际使用的过程
- 关键步骤：
  - 封装：将模型打包为API服务或嵌入式模块
  - 运维：监控性能、拓展服务器、保证稳定性
- 部署方式
  - 云端
  - 边缘设备（如手机，loT设备端侧部署）
- 示例：将AI客服模型部署到企业官网，实时处理客户咨询
大模型训练
- 定义：通过海量数据训练模型参数，使其学习规律的过程
- 核心流程：
  - 数据准备：清洗文本/图像数据，标注标签
  - 模型设计：选择架构（如，Transformer）
  - 迭代优化：调整超参数，减少预测误差
- 资源消耗
  - 需要大规模算力（如A100集群）耗时可能达数周
- 示例：用千万级代码数据训练生成大模型
三者的关系
- 训练---部署---推理
- 训练时基础，决定模型能力的上限
- 部署时桥梁，连接模型与实际应用
- 推理是终端体现，直接服务用户

大模型训练环节，清洗文本/图像数据，标注标签是什么意思？

在大模型训练中，清洗文本/图像数据，标注标签是数据准备的核心步骤，直接影响模型效果。

清洗文本/图像数据

目的：剔除噪声，修正错误，保证数据质量，避免“垃圾进，垃圾出”（GIGO）
具体操作

文本数据起清洗
- 剔除无关内容（如广告，特殊符号，HTML标签）
- 纠正拼写/语法错误（如“teh” → “the”）
- 统一格式（如日期“2023-1-1” → “2023-01-01”）。
- 处理缺失值（填充或删除空数据）。
- 示例：原始文本："用户评价：这手机**太棒了！！！！！价格：$999"
  清洗后："用户评价：这手机太棒了。价格：999美元"
图像数据清洗
- 去除模糊/低分辨率的图片
- 剪裁无关背景（如只保留人脸区域）
- 标准化尺寸和色彩（如统一调整为256x256像素，RGB格式）
- 示例：
  原始图像：一张包含多个物体的杂乱照片。
  清洗后：只保留目标物体（如猫），并调整至统一尺寸。

标注标签

目的：为数据添加“正确答案”，教会模型识别规律
常见类型标注
- 分类标签：为数据打类别标签
  - 文本：“这部电影很好看”---> 标签：“正面情感”
  - 图像：猫的图片---> 标签：“猫”
- 边界框标注：标出物体的位置（用于目标检测）
图像标注示例（COCO格式） { "bbox": [x, y, width, height], # 如[100, 150, 200, 200] "label": "dog" }
- 语义分割：为每个像素标注类别（用于医疗影像等）。
- 序列标注：标出文本中的实体（如人名、地点）。
  示例：
  “巴黎是法国首都” → 标注：[（巴黎，LOCATION）,（法国，LOCATION）]
- 标注工具
  - 文本：Prodigy、Label Studio
  - 图像：CVAT、LabelImg

为什么需要这两步

清洗数据：减少模型学习噪音，提升泛化能力
标注标签：提供监督信号，让模型学会“正确答案”
类比：
- 清洗数据：给学生一本无错别字的教科书
- 标注标签：在书中标出重点和习题答案

大模型训练环节的模型设计环节是什么？

在大模型训练的模型设计环节中，需要综合算法架构，计算效率和任务需求，构建适合的模型结构。

模型设计的关键目标
模型设计的具体步骤
典型设计案例
模型设计的挑战
工具与框架