AI 应用研发理论基础初探大模型：起源与发展注意力机制（Attention Mechanism）注意力机制目的就是

基础模型层：GPT-4、ChatGLM等，具备对话能力；

中间层：LangChain，具备记忆、提示词等能力；

软件层

理论基础

初探大模型：起源与发展

1950年人工智能的概念提出 → 1980年IBM的Watson用机器学习的手段做一些垃圾邮件识别 → 2010年深度学习，深度神经网络训练，PyTorch、TensorFlow等框架出现 → 2020年生成式人工智能开始普及。

注意力机制（Attention Mechanism）

注意力机制目的就是抓住重点！

问：我去了几次咖啡店？

“昨天，我下班后决定去咖啡店放松一下。我走进咖啡店，找了个靠窗的位置坐下，喝着咖啡，看着窗外的人匆匆忙忙。然后，我从咖啡店出来，回到了家中。“

注意力机制就是帮助模型在处理这样的句子时，能更好地关注到关键的信息，而忽略冗余信息。

Transformer的崛起

注意力机制在2014年由Bengio和本九提出，使得神经网络能够学习翻译和对齐任务 → 2017年，一篇名为《Attention is All You Need》的论文提出了Transformer网络结构，强调了注意力机制的重要性。

Q、K、V ...

GPT和BERT

BERT作为预训练的深度双向Transformer模型，旨在提升语言理解能力，通过大量无标注文本进行预训练，并结合微调技术解决下游任务。视频强调了BERT在多个自然语言处理任务上取得的显著成果，包括其创新的预训练范式和双向学习机制，与GPT相比具有更强的上下文理解能力。

GPT的自回归模型特性及其在生成任务上的优势。两者共同采用了无标签数据预训练和有标签数据微调的训练范式，共同推动了自然语言处理领域的发展。

GPT模型家族

从2018年GPT-1开始，到2023年4月GPT-4发布，经历了技术、数据和环境的多重变革.

ChatGPT成功因素：提示学习、思维链、自洽性推理、思维树等。

开发基础

Embedding

表示学习与嵌入：通过算法自动学习数据分布，提取重要特征和结构，将输入数据转换为具有良好表示能力的特征空间。嵌入作为表示学习的一种形式，被解释为将高维数据映射到低维数据的过程，旨在保留高维空间中的关系，并通过可视化等方式展示嵌入的效果。

表示学习通过高维向量的方式捕捉数据特征，确保特征结构在向量空间中保留，并包含语义、语法及上下文信息。其次，向量数据库专为非结构化数据检索设计，能在高维空间中进行模糊检索，快速输出权重最高的答案。

表示学习是一种通过算法将客观世界映射到高维特征空间的学习方式。其核心在于通过embedding方法将不同载体的数据统一，并通过降维技术保留特征的可分性。评估表示学习效果的方法包括利用如TSNE等降维工具观察embedding的结构以及设计benchmark进行模型测试。Embedding能够捕捉语义信息，在降维的同时保持信息的完整性，具有数据驱动和可解释性。在表示学习中，embedding与识别模型共同作用，实现从原始数据到统一表达再到进一步学习的过程。对于不同类型的数据，如词、图像和图结构，都有相应的embedding方法。评价表示学习效果需综合考虑其在实际应用中的表现和降维与语义保留的平衡。

Word Embedding作为一种词向量表示方法，能够捕捉词汇间的语义相似度和推理关系，同时理解上下文语境。

项目实战

OpenAI-Translator

翻译任务实战。

产品规划与功能规划

V1.0

支持PDF文件格式解析。
支持英文翻译成中文。
支持 OpenAI 和 ChatGLM 模型。
支持 YAML 文件或命令行参数灵活配置。
模块化和面向对象的设计，易于定制和扩展。

V2.0

支持图形用户界面（GUI），提升易用性。
添加对保留源PDF的原始布局的支持。
服务化：以API形式提供翻译服务支持。
添加对其他语言的支持。

模块划分

PDF文档解析（PDFParser）模块
文档导出（Writter）模块
大模型（LLMs）接入模块
参数解析器（ArgParser）模块
日志（Logger）模块
提示词（Prompt）模块

LangChain

一个开源项目：通过组合模块和抽象能力来扩展LLM的助手。

对于复杂AI应用的开发，尤其是涉及AI代理与内存管理时，使用统一的框架如LangChain会更高效。可以简化提示词模板与大元模型的集成等。

LangChain核心模块

Model I/O是LangChain为开发者提供的一套面向LLM的标准化模型接口，包括模型输入（Prompts）、模型输出（Output Parsers）和模型本身（Models）。

Prompts：模板化、动态选择和管理模型输入

Models：以通用接口调用语言模型

Output Parser：从大模型输出中提取信息，并规范化内容