Himon

算法工程师

大家好，我是一只梦想环游世界的程序猿。就像相信大米能够煮成米饭，我也相信数据和算法的力量。

赞

43

|

搜索文章

MOE原理介绍和代码解读

MEGABLOCKS Switch Transformers 模型介绍 Swith Transformer的MoE设计是门控网络每次只route到1个专家。采用softmax来计算门控网络层的输出。

3月前
95
点赞
评论

位置编码RoPE介绍及其优化

绝对位置编码传统的BERT中的实现方法，假设模型最大输出长度是512，向量纬度是768，需要先初始化一个512*768的位置编码矩阵。在每个位置，将位置编码直接加到token向量上。问题：不具备

3月前
286
点赞
评论

Qwen1、2、3模型全解析

Qwen： 1.分词器采用BPE：核心思想：先按照字符切分，逐渐合并出现频率高的子词。问题： BPE理论上还是会出现OOV的，当词汇表受限，语料中又没有出现过某个子词，这个子词就无法进入词典中。而

3月前
395
点赞
评论

LLM参数有效性学习综述

全参数微调 1.显存占用分析：如果微调一个3B的模型：模型参数本身的显存：模型有30亿个参数：3B = 3 * billion 不同精度下的显存占用： FP32（每个参数4字节）：3B * 4

3月前
273
点赞
评论

DeepSeek模型解析

DeepSeek-V2 Multi-head Latent Attention (MLA) 传统的多头注意力机制（MHA，Multi-Head Attention）：在标准的Transformer中

3月前
183
点赞
评论

Agent设计模式总结

ReAct模式 1.简述 LLM根据当前的结果（Observation），推理和思考（Thought），决定执行什么行动（Action），通过function call的机制得到最新的结果（Obser

3月前
182
点赞
评论

Agent-Memory介绍

一：短期记忆：大模型上下文就是大模型的上下文二：中期记忆：执行任务记忆对上一阶段的对话进行阶段性摘要。根据任务精心设计prompt，目标明确。摘要序列存储。即将Agent过程中的Action单

3月前
162
点赞
评论

大规模预训练模型预训练工作记录

1.背景 2.训练训练过程在固定step卡住问题描述：使用小批量数据没问题，当使用一定数量数据时。他会在固定step卡住，观察资源占用：在卡住之前，CPU利用率几乎拉满，GPU利用率和内存很低，卡

6月前
159
点赞
评论

入门-文本摘要-课程提纲

Outline（规划） class1：理论课：专题主要内容介绍；文本摘要问题定义和落地场景，目前业内的主流方案和框架和主要问题；常用数据集介绍；摘要质量评估方法，评价指标介绍及其实际问题；文本摘要传

6月前
43
点赞
评论

DeepSeek技术解读-从MHA到MLA的完整解读（适合有点基础的同学）

一、传统的多头注意力机制（MHA，Multi-Head Attention）：在标准的Transformer中，多头注意力机制（MHA）通过并行计算多个注意力头来捕捉输入序列中的不同特征。每个注意力

9月前
565
1
评论

个人成就

文章被点赞 121

文章被阅读 44,299

掘力值 1,175

加入于

2019-09-19