天何言哉

算法工程师

大模型预训练全流程经验

获得徽章 10

赞

26

|

搜索文章

【vision transformer复现】vit整体架构

本文内容主要为vision transformer整体架构如何实现（包括pytorch 及 paddle版代码）来自笔者学习paddle vit课程笔记，经过整理得来，如有错误，请您不吝指出。本文

1年前
467
点赞
评论

大模型基础面试——从序列进入transformer说起（一）

【本文正在参加金石计划附加挑战赛——第一期命题】序列输入模型（分词，embedding）首先我们输入两句话： “我爱你中华” “你是我的眼。” 那么它们经过tokenizer可能会变成 “我，爱

1年前
127
点赞
评论

einsum的不同情况

爱因斯坦求和约定（Einstein summation convention），简称EinSum，是一种表示多重索引运算的简洁记号。它不仅可以表示外积，还可以表示点积、矩阵乘积、张量收缩等各种张量操作

1年前
279
点赞
评论

【可视化】详解RoPE代码与数学证明

题前注明：本文的数学证明主要借鉴YaRN论文中对于RoPE的表述，小白也能看得懂，看不懂那可能是我表达有问题，请尽情提出批评建议关于后文$e^{im\theta}$的可视化代码会在评论区释出，请佬

1年前
1.3k
2
1

众所周不知，mgm 源自于llava，那么它们在代码上有什么区别呢？它们的投影层一致 llava_llama与mgm_llama 主要是forward函数的区别 llava mgm_llama 关于

1年前
1.3k
点赞
评论

精度fp32、fp16、bp16的表示范围计算

题前：学tensorRT捡起来考研的时候就写错了的浮点数的表示范围计算，我哭了鸭，我总算把这个知识点学会了啊，王道教我的时候就没教会啊TAT TLDR 指数位均为1表示特殊值无穷大如0 1111

1年前
1.5k
2
评论

超长源码：根据tensorRT源码对比学习int8量化

引入我们其实可以看到看到trt_samples_onnx_mnist.cpp中也有对int8的处理，那么为什么还需要sampleINT8.cpp专门对int8进行处理呢？为什么需要专门的INT8处

1年前
691
点赞
评论

TensorRT_sample_onnx_MNIST逐行中文解析

TensorRT_sample_onnx_MNIST逐行中文解析// DEFINE_TRT_ENTRYPOINTS宏用于定义TensorRT常用代码中的入口点，这些入口点通常用于构建网络、运行推理等操

1年前
397
点赞
评论

面试：python内存管理原理及流程

你将得到：完整的面试回答一些结合业务的面试问题结合参考文献可以更容易理解原理图什么的后续会补的啦～面试的时候可以这么回答～首先，在内存分配上，如果超过256KB的大变量由c的malloc分

1年前
579
3
评论

抖音v1版（以消息接口为例）

本篇为青训营大项目笔记，用于查漏补缺，尚未整理供食用。注：下文的第二版指的是第一个版本合代码之后的第二版即v1版，而原始仓库的v2版本应为添加grpc微服务架构的版本，本文未讨论。阅读源码架构与

2年前
145
点赞
评论

个人成就

文章被点赞 47

文章被阅读 25,639

加入于

2022-08-07