Tw_xxxx

赞

6

|

搜索文章

知识图谱结合大模型

研究动机大语言模型是黑盒模型，通常无法捕获和访问事实知识。相比之下，知识图谱（KG）、维基百科和花谱等都是结构化知识模型，显式存储丰富的事实知识。知识图谱可以通过提供外部知识进行推理和解释来增强大语

1年前
297
点赞
评论

长文本解决方法

论文链接概述尽管LLMs在推动人工智能方向上取得了显著成就，但在处理长文本方面仍面临资源限制和效率问题。提出了一系列针对长文本优化的Transformer架构改进方法，包括高效的注意力机制、长期

1年前
222
点赞
评论

预训练模型

概述在 Transformer 作为特征抽取器基础上，选定合适的模型结构，通过某种自监督学习任务，逼迫 Transformer 从大量无标注的自由文本中学习语言知识。这些语言知识以模型参数的方式，存

1年前
108
点赞
评论

混合专家（Mixture of Experts）

概述 MoE 已经变得十分普遍，新的大型语言模型：GPT-4、Gemini 1.5、Mixtral 8x7B 或 Jamba 都是 MoE 模型。知识的稀疏性 MoE（Mixture of Expe

1年前
304
点赞
评论

大语言模型的涌现能力

什么是大模型的涌现能力第一类任务表现出伸缩法则：这类任务一般是知识密集型任务。随着模型规模的不断增长，任务效果也持续增长，说明这类任务对大模型中知识蕴涵的数量要求较高。第二类任务表现出涌现能力：这

1年前
751
点赞
评论

大模型训练优化

并行化数据并行（Data Parallelism）在数据并行训练中，数据集被分割成几个碎片，每个碎片被分配到一个设备上。这相当于沿批次（Batch）维度对训练过程进行并行化。每个设备将持有一个完整

1年前
251
点赞
评论

大模型训练流程

参考链接预训练阶段（Pretraining Stage） Pretraining 的思路很简单，就是输入一堆文本，让模型做 Next Token Prediction 的任务数据源采样通过「数据

1年前
574
点赞
评论

大模型显存分析

Collective Operations Broadcast：将一个节点上的数据广播到集群内所有的节点 Scatter：将数据的进行切片再分发给集群内所有的节点 Gather：可以在集群内把多个节

1年前
130
点赞
评论

大模型微调

Prefix Tuning 人工设计的 prompt 中那些对应自然语言的真实 token 要经过嵌入层，被向量化得到的 token 是离散的，得到的结果大概率是次优的。相较而言，连续化的 prefi

1年前
204
点赞
评论

大模型外推技术

什么是大模型外推性外推性是指大模型在训练时和预测时的输入长度不一致，导致模型的泛化能力下降的问题。例如，如果一个模型在训练时只使用了 512 个 token 的文本，那么在预测时如果输入超过 512

1年前
641
点赞
评论

个人成就

文章被点赞 2

文章被阅读 15,333

加入于

2024-02-13