LLM大语言模型算法特训,带你转型AI大语言模型算法工程师
核心代码,注释必读
// download:3w lexuecode com
LLM大语言模型算法特训 - Transformer介绍
-
自然语言处理中的 Transformer 模型真正改变了我们处理文本数据的方式。
-
Transformer 是最近自然语言处理发展的幕后推手,包括 Google 的 BERT。
-
了解 Transformer 的工作原理、它如何与语言建模、序列到序列建模相关,以及它如何支持 Google 的 BERT 模型。
-
编码器和解码器都是递归神经网络。
-
在编码器中的每个时间步骤,递归神经网络从输入序列获取词向量(xi),从前一个时间步骤中获取一个隐状态(Hi)。
-
隐状态在每个时间步骤中更新。
-
最后一个单元的隐状态称为语境矢量(context vector)。它包含有关输入序列的信息。
-
然后将该语境矢量传递给解码器,然后使用它生成目标序列(英文短语)。
-
如果我们使用注意力机制,则隐状态的加权和将作为语境矢量传递给解码器。
AI大语言模型算法工程师 - 大模型应用开发框架LangChain
LangChain 是一个基于大语言模型(LLM)的应用程序开发框架,它提供了一整套工具、组件和接口,简化了创建大模型应用程序的过程,方便开发者使用语言模型实现各种复杂的任务,比如聊天机器人、文档问答、各种基于 Prompt 的助手等。根据 官网的介绍,它可以让你的应用变得 Data-aware 和 Agentic:
Data-aware:也就是数据感知,可以将语言模型和其他来源的数据进行连接,比如让语言模型针对指定文档回答问题; Agentic:可以让语言模型和它所处的环境进行交互,实现类似代理机器人的功能,帮助用户完成指定任务;
我们首先从一个简单的例子开始:
| 1234567 | from langchain.llms import OpenAI llm = OpenAI(temperature=0.9)``response = llm.predict("给水果店取一个名字")``print(response) # 果舞时光 |
|---|
LangChain 集成了许多流行的语言模型,并提供了一套统一的接口方便开发者直接使用,比如在上面的例子中,我们引入了 OpenAI 这个 LLM,然后调用 llm.predict() 方法让语言模型完成后续内容的生成。如果用户想使用其他语言模型,只需要将上面的 OpenAI 换成其他的即可,比如流行的 Anthropic 的可以找到 LangChain 目前支持的所有语言模型接口。
回到上面的例子,llm.predict() 方法实际上调用的是 OpenAI 的接口,这个接口的作用是给定一个提示语,让 AI 生成后续内容;我们知道,除了 Completions,OpenAI 还提供了一个 接口,也可以用于生成后续内容,而且比 Completions 更强大,可以给定一系列对话内容,让 AI 生成后续的回复,从而实现类似 ChatGPT 的聊天功能。