首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
LLM相关问题
余磬TuT
创建于2023-11-04
订阅专栏
LLM相关知识
等 11 人订阅
共31篇文章
创建于2023-11-04
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
LLM常见问题(RAG部分)
1. 什么是 Graph RAG? Graph RAG 是由悦数图数据提出的概念,是一种基于知识图谱的检索增强技术,通过构建图模型的知识表达,将实体和关系之间的联系用图的形式进行展示,然后利用大语言模
LLM常见问题(思维链变体部分)
1. 为什么需要思维树 Tree of Thoughts(TOT)? 对于需要探索或预判战略的复杂任务来说,传统或简单的提示技巧是不够的。ToT 维护着一棵思维树,思维由连贯的语言序列表示,这个序列就
LLM常见问题(思维链部分)
1. 什么是思维链提示? 思维链(Chain-of-thought,CoT),指的是一系列有逻辑关系的思考步骤,形成一个完整的思考过程。人在日常生活中,随时随地都会用思维链来解决问题,比如工作、读书经
LLM常见问题(幻觉部分)
1. 什么是大模型幻觉(Hallucination)? 大语言模型的模型幻觉问题是指其可能生成看似合理但实际上不准确或不符合事实的内容。处理大语言模型的模型幻觉问题需要采取一些方法和策略,通过挂载文档
LLM常见问题(Attention 优化部分)
1. 传统 Attention 存在哪些问题? 传统的 Attention 机制忽略了源端或目标端句子中词与词之间的依赖关系。 传统的 Attention 机制过度依赖 Encoder-Decoder
LLM常见问题(优化加速部分)
1. 当前优化模型最主要技术手段有哪些? 当前优化模型最主要技术手段概括来说有以下三个层面: 算法层面:蒸馏、量化 软件层面:计算图优化、模型编译 硬件层面:FP8(NVIDIA H系列GPU开始支持
LLM常见问题(激活函数部分)
1. 介绍一下 FFN 块? FFN(Feed-Forward Network)块是 Transformer 模型中的一个重要组成部分,用于对输入数据进行非线性变换。它由两个全连接层(即前馈神经网络)
LLM常见问题(Layer normalization 部分)
1. Layer Norm 的计算公式是怎样的,如何使用代码实现? 其中 μ 为 x 的均值,σ 为 x 的方差,γ 和 β 是可训练的模型参数,γ 是缩放参数,新分布的方差 γ2 ; β 是平移系数
LLM常见问题(中文指令微调部分)
1. 对模型进行指令微调需要注意什么? 在选择好需要微调的一个大语言模型之后。比如chatglm、llama、bloom等,要想使用它,得了解三个方面:输入数据的格式、tokenization、模型的
LLM常见问题(中文二次预训练部分)
1. 为什么需要进行继续预训练? 我们新增加了一些中文词汇到词表中,但是这些词汇是没有得到训练的,因此在进行指令微调之前我们要进行预训练。预训练的方式一般都是相同的,简单来说,就是根据上一个字预测下一
LLM常见问题(中文 Tokenization 部分)
1. 为什么需要构建中文 tokenization? 2. 如何对原始数据预处理? 3. 如何构建中文的词库? 目前比较主流的是使用 sentencepiece 来训练中文词库。安装指令也很简单:pi
LLM常见问题(Tokenizer 部分)
1. Byte-Pair Encoding(BPE) 如何构建词典? 设定最大subwords个数。 将所有单词拆分为单个字符,并且在最后添加一个停止符,同时标记处该单词出现的次数。 统计每一个 连续
LLM常见问题(位置编码部分)
1. 什么是位置编码? 位置编码分为绝对位置编码和相对位置编码,绝对位置编码就是直接按照函数公式或者可学习参数得到每个 token 的位置编码加到 token 的输入表征上。相对位置编码(Relati
LLM常见问题(Token 及模型参数部分)
1. 预训练模型表现影响因素有那些? 模型表现强依赖于模型规模(模型参数量 N、训练 Token 数 D、训练总计算量 C)。 平滑幂定律:模型表现与三个因子均遵循幂定律,不受另外两个因子限制。 在给
LLM常见问题(Agent 部分)
1. 什么是 LLM Agent? LLM Agent 是一种人工智能系统,它利用大型语言模型 (LLM) 作为其核心计算引擎,展示文本生成之外的功能,包括进行对话、完成任务、推理,并可以展示一定程度
LLM常见问题(显存部分)
1. 大模型大概有多大,模型文件有多大? 大模型也分为不同的规格,一般模型的规格会体现在模型的名称上,例如 LLaMA2-13b,13b 就是其模型参数量的大小,意思是 130亿的参数量。大模型的文件
LLM常见问题(训练集部分)
1. SFT(有监督微调)的数据集格式? 指令数据一般为 json 格式,包含 Instruction、Input、Output 三个字段(可以为空),每行一条样本。 Instruction(指令)
LLM常见问题(强化学习部分)
1. 简单介绍强化学习 强化学习(Reinforcement learning)是一种机器学习技术,可以训练模型做出决策,以实现最佳结果。它模仿了人类为实现目标所采取的反复试验的学习过程。有助于实现目
LLM常见问题(测评部分)
1. 大模型怎么评测? 自动评测和人工评测。这两种方法在评测语言模型和机器翻译等任务时起着重要的作用。自动评测方法基于计算机算法和自动生成的指标,能够快速且高效地评测模型的性能。而人工评测则侧重于人类
LLM常见问题(增量预训练部分)
1. 为什么要增量预训练? 预训练学知识,指令微调学格式,强化学习对齐人类偏好,所以要想大模型有领域知识,得增量预训练(靠指令微调记知识不靠谱,不是几十w条数据能做到的)。 2. 进行增量预训练需要做
下一页