余磬TuT

LLM算法工程师

gogogo！！！

赞

74

|

搜索文章

LLM常见问题（Token 及模型参数部分）

1. 预训练模型表现影响因素有那些？模型表现强依赖于模型规模(模型参数量 N、训练 Token 数 D、训练总计算量 C)。平滑幂定律：模型表现与三个因子均遵循幂定律，不受另外两个因子限制。在给

2年前
983
5
评论

LLM常见问题（Agent 部分）

1. 什么是 LLM Agent? LLM Agent 是一种人工智能系统，它利用大型语言模型 (LLM) 作为其核心计算引擎，展示文本生成之外的功能，包括进行对话、完成任务、推理，并可以展示一定程度

2年前
2.5k
6
评论

LLM常见问题（显存部分）

1. 大模型大概有多大，模型文件有多大? 大模型也分为不同的规格，一般模型的规格会体现在模型的名称上，例如 LLaMA2-13b，13b 就是其模型参数量的大小，意思是 130亿的参数量。大模型的文件

2年前
2.1k
4
评论

LLM常见问题（训练集部分）

1. SFT（有监督微调）的数据集格式？指令数据一般为 json 格式，包含 Instruction、Input、Output 三个字段（可以为空），每行一条样本。 Instruction（指令）

2年前
2.7k
4
2

LLM常见问题（强化学习部分）

1. 简单介绍强化学习强化学习（Reinforcement learning）是一种机器学习技术，可以训练模型做出决策，以实现最佳结果。它模仿了人类为实现目标所采取的反复试验的学习过程。有助于实现目

2年前
1.9k
3
评论

LLM常见问题（测评部分）

1. 大模型怎么评测？自动评测和人工评测。这两种方法在评测语言模型和机器翻译等任务时起着重要的作用。自动评测方法基于计算机算法和自动生成的指标，能够快速且高效地评测模型的性能。而人工评测则侧重于人类

2年前
761
3
评论

LLM常见问题（增量预训练部分）

1. 为什么要增量预训练？预训练学知识，指令微调学格式，强化学习对齐人类偏好，所以要想大模型有领域知识，得增量预训练（靠指令微调记知识不靠谱，不是几十w条数据能做到的）。 2. 进行增量预训练需要做

2年前
1.5k
4
评论

LLM常见问题（推理部分）

1. 为什么大模型推理时显存涨的那么多还一直占着？模型参数占用显存：大语言模型本身具有大量参数量，这些参数需要存储在显存中以供推理使用。不量化的情况下这部分显存占用和大模型所占存储空间相同。输入数

2年前
1.1k
4
评论

LLM常见问题（LoRA 部分）

1. 什么是 LoRA？ LoRA（low-rank adaptation of large language models）是一种针对大型语言模型进行低秩适应的技术。大型语言模型通常具有数十亿个参数

2年前
1.1k
4
评论

LLM常见问题（Prompting 部分）

1. 为什么需要提示学习（Prompting）？解决模糊性：在某些任务中，输入可能存在歧义或模糊性，通过提供明确的提示，可以帮助模型更好地理解任务的要求，避免产生错误或不确定的输出。控制生成：在生

2年前
628
4
评论

个人成就

文章被点赞 183

文章被阅读 57,512

掘力值 1,027

加入于

2023-10-30