AI大模型入门-AIGC及nlp理论

200 阅读5分钟

本文是关于人工智能领域入门知识, 介绍了大模型的分支、误差、学习方式、关键能力等,讲解了AIGC 的概念、发展历程、产业图谱,以及 NLP 中的分词、文字编码、词嵌入, 首先是使用大模型,推荐国内镜像gpt4o

ChatGPT 4o 在语音、文本和视觉处理方面进行了多项改进。不仅能更好地理解语音的语气,还能消除背景噪音,从而提供更自然的对话体验。 ChatGPT 40 还能在语音、文本和视觉之间进行推理,使其在处理多模态任务时表现更加出色,免费白嫖首选

一 简介

大模型是机器学习的一个分支,机器学习是AI的一个分支: AI-机器学习-深度学习-大模型, 神经网络分支

1.1 证书

非常推荐可以考取斯坦福大学$200 证书 有考试 AI大佬聚集地 认可度可以

waytoagi.feishu.cn/wiki/RJofwt…

image-20241105091103063

任何模型都是有误差的,包括现在的时间 ,比如闰年闰月

1.2 学习方式

批判式学习 没有权威 没有100%正确

二. AIGC(artificial intelligence generated content)

AIGC(AI创造生成内容; AIGC:artificial intelligence generated content 内容生成)

  1. 生成式AI(未来发展主流趋势 文字图像 从无到有 创造)
  2. 分析式AI(做简单判断 根据已有数据做判断 看病-有病or没病)

结合了PGC专业生成内容+UGC用户生成内容

核心在于GAN(生成对抗网络) 大型预训练模型等

大模型:1.19和1.2 ->1.19大 大模型错了 数数分类不太行

大模型的"大"

大模型大在模型参数很大 单位G T 大模型文字输出有正确的 有错误的

如果10个对了6个 正确率60%

B -亿 1000 000 000

7B-处理复杂

70B-处理更复杂, 参数更大 性能更强 image.png

目前很多行业可以被大模型替代,如课本插画图 创意师 复制粘贴程序员, 但是和业务相关迭代ai实现不了

1.1 AIGC发展历程

image-20241105092843835

免费开源openai chatgpt ,stable diffusion

早期: tensorflow.google.cn/tutorials/g…

2.2 AIGC产业图谱

image-20241105093424204

底下模型都是写好的 上面层开发

神经网络-医学解剖-数学模拟

生成式大模型原理和开发应用-导入jupyter-查看模型参数-训练损失和校验损失-检查等

2.3 jupyter 实验

人工智能代码小学生都能写 几十行 网上有很多训练好的模型 拉下来直接优化 ,都是从别人的模型往下做的

2.4 关键能力

数据+算力+算法+模型架构+智能工程

算力可以租 数据是核心资产 具有价值 ->基于现有数据模型架构 做数据预测

chatGLM国产大模型

! 大模型中的参数无法手工修改 改了一个参数影响误差非常大指数级别 大模型不是数据库没有记忆能力

大模型搜出来的文字凑出来的 ->如何用RAG技术 用数据库文本嵌入大模型

2.5 著名的大模型

BERT(Bidirectional Encoder Representatiogs from Transformers):由Go0gle开发,是NLP领域的一个里程碑模型,拥有3亿参数。 GPT (Generative Pre-trained Transformer):由OpenAI开发,是一个生成文本的模型,其最新版本GPT-3拥有1750亿参数。 ResNet:一种深度卷积神经网络,用于图像识别任务,有的变体拥有超过1亿参数。

Vision Transformers(VIT):结合了CNN和Transformer的优势,用于图像分类任务,可以拥有大量参数。 Llama(Large Language Model Meta AI)大模型是由Meta(前身为Facebook)开发的一种大型语言模型,Llama模型的发布和开源,为AI社区提供了强大的工具,有助于推动自然语言处理技术的进步。 深度网络 肺片子识别细胞病变

三. nlp自然语言处理

3.1.什么是分词

nlp中, 文本分解为更小单元

单词分词,句子分词(句子变单词),子词分词(前缀后缀),符号分词(标点符号)

词性标注( part of speech tagging:POS tagging):n ,v, adj

汉字分词库

3.2. 文字编码

apple 1;banana2 ;cherry 3

读热编码:

image-20241105115559492

频率编码: 出现次数

3.3. 词嵌入 word embedding

词嵌入是一种更高级的编码方法,它通过训练神经网络来学习单词的数值表示。这些数值表示(向量)捕捉了单词之间的语义关系。常见的词嵌入模型有Word2Vec、GloVe和FastText。 例如,使用Word2Vec模型,我们可以得到每个单词的300维向量表示。

这些向量不仅能够表示单词本身,还能够捕捉单词之间的相似性。例如,"king"和"queen"的向量在语义空间中会彼此接近因为它们有相似的上下文。

词嵌入是现代NLP中最常用的文本编码方法之一,因为它们能够捕捉丰富的语义信息,并且适用于大规模词汇表。

3.4 (CBOW)模型Word2Vec--连续词袋

CBOW模型预测目标单词,给定上下文(周围的单词)。

例如,假设我们有以下句子The quick brown foxjumps over the lazy dog. 为了训练CBOW模型,我们将句子分词并创建上下文窗口。假设我们的窗口大小为2,我们可以创建以下训练样本: 上下文:"The quick",目标单词:"brown"

上下文:"quick brown",目标单词:"fox”

上下文:"brown fox",目标单词:"jumps' 以此类推。

3.5 Word2Vec--Skip-gram模型

The quick brown fox jumps over the lazy dog. Skip-gram模型与CBOW相反,它使用目标单词来预测上下文。

使用上面的句子,我们的训练样本将是: 目标单词:"The",上下文:"quick brown" 目标单词:"quick",上下文:"The brown" 目标单词:"brown",上下文:"The quick fox" 以此类推。

3.6 tensorflow文字编码

tensorflow.google.cn/text/guide/…

tensorflow.google.cn/tutorials/g…

github.com/tensorflow/…

image-20241105120111140