首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Tw_xxxx
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
6
文章 6
沸点 0
赞
6
返回
|
搜索文章
最新
热门
知识图谱结合大模型
研究动机 大语言模型是黑盒模型,通常无法捕获和访问事实知识。相比之下,知识图谱(KG)、维基百科和花谱等都是结构化知识模型,显式存储丰富的事实知识。知识图谱可以通过提供外部知识进行推理和解释来增强大语
长文本解决方法
论文链接 概述 尽管LLMs在推动人工智能方向上取得了显著成就,但在处理长文本方面仍面临资源限制和效率问题。 提出了一系列针对长文本优化的Transformer架构改进方法,包括高效的注意力机制、长期
预训练模型
概述 在 Transformer 作为特征抽取器基础上,选定合适的模型结构,通过某种自监督学习任务,逼迫 Transformer 从大量无标注的自由文本中学习语言知识。这些语言知识以模型参数的方式,存
混合专家(Mixture of Experts)
概述 MoE 已经变得十分普遍,新的大型语言模型:GPT-4、Gemini 1.5、Mixtral 8x7B 或 Jamba 都是 MoE 模型。 知识的稀疏性 MoE(Mixture of Expe
大语言模型的涌现能力
什么是大模型的涌现能力 第一类任务表现出伸缩法则:这类任务一般是知识密集型任务。随着模型规模的不断增长,任务效果也持续增长,说明这类任务对大模型中知识蕴涵的数量要求较高。 第二类任务表现出涌现能力:这
大模型训练优化
并行化 数据并行(Data Parallelism) 在数据并行训练中,数据集被分割成几个碎片,每个碎片被分配到一个设备上。这相当于沿批次(Batch)维度对训练过程进行并行化。每个设备将持有一个完整
大模型训练流程
参考链接 预训练阶段(Pretraining Stage) Pretraining 的思路很简单,就是输入一堆文本,让模型做 Next Token Prediction 的任务 数据源采样 通过「数据
大模型显存分析
Collective Operations Broadcast:将一个节点上的数据广播到集群内所有的节点 Scatter: 将数据的进行切片再分发给集群内所有的节点 Gather:可以在集群内把多个节
大模型微调
Prefix Tuning 人工设计的 prompt 中那些对应自然语言的真实 token 要经过嵌入层,被向量化得到的 token 是离散的,得到的结果大概率是次优的。相较而言,连续化的 prefi
大模型外推技术
什么是大模型外推性 外推性是指大模型在训练时和预测时的输入长度不一致,导致模型的泛化能力下降的问题。例如,如果一个模型在训练时只使用了 512 个 token 的文本,那么在预测时如果输入超过 512
下一页
个人成就
文章被点赞
2
文章被阅读
15,333
掘力值
108
关注了
1
关注者
4
收藏集
0
关注标签
0
加入于
2024-02-13