AI 应用开发-LLM大语言模型快速认识

88 阅读5分钟

1. LLM大语言模型快速认识

LLM大语言模型定义

LLM全称 Large Language Model,即大语言模型,是一种用大量数据训练的深度学习模型。给模型一些输入,它可以预测并返回相应的输出。

个人理解:数据量特别大的语言模型就叫大语言模型,能理解和生成自然语言。

基础单位 Token

Token 是文本的最小处理单元,是大模型的基本单位。对于汉字,可以是一个字、一个词,甚至半个字。对于英文,可能是单词、词根,或者单个字母。 例如:

  • “你好”在某些模型中会被分成两个Token(“你”、“好”),在另一些模型中可能是一个Token。
  • 英文单词“playing”可能被分为“play”和“ing”两个Token。 对于仅支持英语的模型,词表可以只有a-z 26个字母,加上标点符号,Token 数量会很少。

词表

词表(Vocabulary),是模型能识别和处理的所有Token的集合。每个Token有唯一的id(编号),一般从0开始。词表大小影响模型的表达能力和泛化能力。

大语言模型预测Token的机制

  • 采集大量文本进行统计,记录所有片段的输入以及下一个Token出现的概率,得到一张巨大的概率分布表。
  • 当输入文本时,模型会根据分布表,预测下一个最有可能出现的Token。

模型训练

  • 训练指的是将大量文本输入给模型,让模型学习文本之间的关联和规律,最终能够根据输入预测输出。当前LLM的训练通常需要2T Token以上的大规模数据。

2. LLM 在企业中的价值与市场需求

  • 所有产品都值得重新用AI做一遍
  • 走进人工智能 Agent/LLM

LLM实际应用场景举例

  • 智能客服与问答系统
  • 文本自动生成(如新闻、报告、邮件)
  • 代码自动补全与生成
  • 智能搜索与推荐
  • 语音识别与翻译

3. ChatGPT聊天机器人的使用与局限性

使用:

  • ChatGPT不仅可以生成流畅自然的文本,还能理解上下文,根据用户指令生成相关内容,无论是创作诗歌、编写代码还是撰写报告,ChatGPT都能提供帮助。

局限性及应对策略

  • 实时性不够:训练成本高,无法实时更新信息。可通过插件、联网搜索等方式部分弥补。
  • 训练资料来源有限:主要依赖互联网公开数据。可结合企业私有知识库进行微调。
  • 外部交互受限:需通过API或插件扩展模型能力。
  • 复杂数学问题易错:可结合专用计算引擎或人工校验。
  • 未涵盖知识时可能“胡说八道”:需加强事实核查和提示用户。
  • 长上下文处理有限:可采用分段对话、摘要等技术优化。
  • 人机对话强但不一定适合所有场景:可结合多模态交互或传统UI。

4. LLM在软件开发过程中的单点提效

  • 智能代码提示
  • 重复代码检查
  • SQL语句智能生成
  • 跨端代码快速转换
  • 代码检查
  • 代码注释自动生成
  • ...

主流大语言模型简述

  • GPT系列(OpenAI):通用能力强,支持多语言,广泛应用于对话、写作、代码等场景。
  • BERT系列(Google):擅长理解任务,广泛用于搜索、问答等。
  • GLM、ERNIE、LLaMA等:各有特色,适用于不同细分领域。

代表性AI开发工具

  • GitHub Copilot
  • CodeGeeX
  • Cursor

附录:LLM 应用开发专有名称解释

  • LLM(大型语言模型):用海量文本数据训练的深度学习模型,能理解和生成自然语言。
  • AIGC(AI生成内容):利用人工智能自动生成文本、图片、音频等内容的技术。
  • AGI(人工通用智能):具备像人类一样广泛认知和推理能力的通用型人工智能。
  • Agent(智能代理):能自主感知、决策和执行任务的AI系统或程序。
  • Prompt(提示词):引导大模型生成特定内容的输入指令或问题。
  • GPT(生成型预训练变换模型):OpenAI提出的基于Transformer结构的生成式预训练模型。
  • Token(文本基础单元):文本被切分成的最小处理单位,可能是字、词或子词。
  • LoRA(插件式微调):一种高效微调大模型的方法,通过少量参数调整实现新任务适配。
  • 矢量/向量数据库:用于存储和检索高维向量(如文本、图片等嵌入表示)的数据库,常用于相似度搜索。
  • 数据蒸馏:通过让小模型学习大模型的输出,实现模型压缩和加速的技术。

附录:大模型时代新交互的特点

  • 过去通过某个应用软件与某种数据进行交互,现在变成人和大模型交互,即大语言模型站到了人机交互的 。
  • 短期来看,LLM可以代替一些应用软件,比如多模态大模型对PhotoShop的取代;长期来看,大模型可能会逐步替代各种功能的软件。

附录:结合大模型的新一代应用交互方式

  • 嵌入(Embedding)模式:用户通过与AI交流,AI协助完成,如创作小说、音乐、3D内容等,此模式下,AI是执行工具,人类是决策者和指挥者。
  • 副驾驶(Copilot)模式:AI作为用户的智能助手,实时辅助完成任务,如代码补全、写作建议、自动生成内容等。典型代表有GitHub Copilot。
  • 智能体(Agent)模式:AI具备自主决策和执行能力,能根据目标自动规划步骤、调用工具、完成复杂任务。适用于自动化办公、流程机器人等场景。