AI-基础概念

170 阅读5分钟

不排除累了,或者怕被时代淘汰的恐惧衍生出来的厌弃,或者是目前对AI的营销氛围,其实大部分只是对openApi的封装,目的仅是获得风投;导致自己不愿去主动学习AI,但这是时代发展的前进趋势,目前希望自己能够平静下来,去学习一些基础知识


tokens

在AI模型中,tokens(令牌/词元)是文本处理的基本单位,用于将输入的文本拆分为模型可理解的片段

  1. tokens 是什么?
    • 定义:token是模型处理文本时的最小单位,可以是:
      • 单词(如hello作为一个token)
      • 子词(如“unhappy”拆分为"un"和"happy"两个tokens)
      • 标点/符号(如?或, 各占1token)
      • 非拉丁字符(如中文通常一个汉字 约等于 1-2个tokens,依赖编码方式)
    • 示例:
      • 英文句子"Hello, world!"拆分为["Hello", ",", "world", "!"] → 4个tokens
      • 中文句子 "你好,世界!" → 可能拆分为 ["你", "好", ",", "世", "界", "!"] → 6个tokens
  2. tokens与资源消耗的关系
    • 计费依据:AI服务的费用通常按token量计算(输入+输出总和)。

      • 例如:100万tokens ≈ 可处理约70万英文单词或50万汉字(实际因文本复杂度而异)。
    • 上下文限制:模型单次交互的token数有上限(如GPT-4通常支持128k tokens),超出需截断或分段处理。

  3. 如何优化token使用?
    • 精简输入
    • 限制输出长度
    • 监控用量

大模型推理,大模型部署,大模型训练

以上三个术语是AI大模型开发与应用的核心环节,具体含义如下

  1. 大模型推理
    • 定义:使用训练好的大模型对输入数据生成预测结果的过程
    • 场景:
      • 用户提问时,模型实时生成答案(如chatGPT对话)
      • 自动补全代码,翻译文本,分析图像等任务
    • 技术要点:
      • 依赖高性能计算资源(GPU/TPU)加速响应
      • 需要优化推理速度与成本(如模型量化,缓存机制)
    • 例如:输入法国的首都是哪里?,模型输出“巴黎”
  2. 大模型部署
    • 定义:将训练好的模型集成到生产环境,供实际使用的过程
    • 关键步骤:
      • 封装:将模型打包为API服务或嵌入式模块
      • 运维:监控性能、拓展服务器、保证稳定性
    • 部署方式
      • 云端
      • 边缘设备(如手机,loT设备端侧部署)
    • 示例:将AI客服模型部署到企业官网,实时处理客户咨询
  3. 大模型训练
    • 定义:通过海量数据训练模型参数,使其学习规律的过程
    • 核心流程:
      • 数据准备:清洗文本/图像数据,标注标签
      • 模型设计:选择架构(如,Transformer)
      • 迭代优化:调整超参数,减少预测误差
    • 资源消耗
      • 需要大规模算力(如A100集群)耗时可能达数周
    • 示例:用千万级代码数据训练生成大模型
  4. 三者的关系
    • 训练---部署---推理
    • 训练时基础,决定模型能力的上限
    • 部署时桥梁,连接模型与实际应用
    • 推理是终端体现,直接服务用户

大模型训练环节,清洗文本/图像数据,标注标签 是什么意思?

在大模型训练中,清洗文本/图像数据,标注标签是数据准备的核心步骤,直接影响模型效果。

清洗文本/图像数据

  1. 目的:剔除噪声,修正错误,保证数据质量,避免“垃圾进,垃圾出”(GIGO)
  2. 具体操作
  • 文本数据起清洗
    • 剔除无关内容(如广告,特殊符号,HTML标签)
    • 纠正拼写/语法错误(如“teh” → “the”)
    • 统一格式(如日期“2023-1-1” → “2023-01-01”)。
    • 处理缺失值(填充或删除空数据)。
    • 示例:原始文本:"用户评价:这手机**太棒了!!!!! 价格:$999"
      清洗后:"用户评价:这手机太棒了。价格:999美元"
  • 图像数据清洗
    • 去除模糊/低分辨率的图片
    • 剪裁无关背景(如只保留人脸区域)
    • 标准化尺寸和色彩(如统一调整为256x256像素,RGB格式)
    • 示例
      原始图像:一张包含多个物体的杂乱照片。
      清洗后:只保留目标物体(如猫),并调整至统一尺寸。

标注标签

  1. 目的:为数据添加“正确答案”,教会模型识别规律

  2. 常见类型标注

    • 分类标签:为数据打类别标签

      • 文本:“这部电影很好看”---> 标签:“正面情感”
      • 图像:猫的图片---> 标签:“猫”
    • 边界框标注:标出物体的位置(用于目标检测)

    图像标注示例(COCO格式) { "bbox": [x, y, width, height], # 如[100, 150, 200, 200] "label": "dog" }

    • 语义分割:为每个像素标注类别(用于医疗影像等)。

    • 序列标注:标出文本中的实体(如人名、地点)。
      示例
      “巴黎是法国首都” → 标注:[(巴黎,LOCATION),(法国,LOCATION)]

    • 标注工具

      • 文本:Prodigy、Label Studio
      • 图像:CVAT、LabelImg

为什么需要这两步

  • 清洗数据:减少模型学习噪音,提升泛化能力
  • 标注标签:提供监督信号,让模型学会“正确答案”
  • 类比:
    • 清洗数据:给学生一本无错别字的教科书
    • 标注标签:在书中标出重点和习题答案

大模型训练环节的模型设计环节是什么?

在大模型训练的模型设计环节中,需要综合算法架构,计算效率和任务需求,构建适合的模型结构。

  1. 模型设计的关键目标
  2. 模型设计的具体步骤
  3. 典型设计案例
  4. 模型设计的挑战
  5. 工具与框架