首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Himon
掘友等级
算法工程师
大家好,我是一只梦想环游世界的程序猿。 就像相信大米能够煮成米饭,我也相信数据和算法的力量。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
43
文章 42
沸点 1
赞
43
返回
|
搜索文章
Himon
算法工程师
·
7月前
关注
MOE原理介绍和代码解读
MEGABLOCKS Switch Transformers 模型介绍 Swith Transformer的MoE设计是门控网络每次只route到1个专家。采用softma...
0
评论
分享
Himon
算法工程师
·
7月前
关注
位置编码RoPE介绍及其优化
绝对位置编码 传统的BERT中的实现方法,假设模型最大输出长度是512,向量纬度是768,需要先初始化一个512*768的位置编码矩阵。在每个位置,将位置编码直接加到tok...
0
评论
分享
Himon
算法工程师
·
7月前
关注
Qwen1、2、3模型全解析
Qwen: 1.分词器采用BPE: 核心思想:先按照字符切分,逐渐合并出现频率高的子词。 问题: BPE理论上还是会出现OOV的,当词汇表受限,语料中又没有出现过某个子词,...
0
评论
分享
Himon
算法工程师
·
7月前
关注
LLM参数有效性学习综述
全参数微调 1.显存占用分析: 如果微调一个3B的模型: 模型参数本身的显存: 模型有30亿个参数:3B = 3 * billion 不同精度下的显存占用: FP32(每个...
0
评论
分享
Himon
算法工程师
·
7月前
关注
DeepSeek模型解析
DeepSeek-V2 Multi-head Latent Attention (MLA) 传统的多头注意力机制(MHA,Multi-Head Attention): 在标...
0
评论
分享
Himon
算法工程师
·
7月前
关注
Agent设计模式总结
ReAct模式 1.简述 LLM根据当前的结果(Observation),推理和思考(Thought),决定执行什么行动(Action),通过function call的机...
0
评论
分享
Himon
算法工程师
·
7月前
关注
Agent-Memory介绍
一:短期记忆:大模型上下文 就是大模型的上下文 二:中期记忆:执行任务记忆 对上一阶段的对话进行阶段性摘要。根据任务精心设计prompt,目标明确。摘要序列存储。 即将Ag...
0
评论
分享
Himon
算法工程师
·
9月前
关注
大规模预训练模型预训练工作记录
1.背景 2.训练 训练过程在固定step卡住 问题描述:使用小批量数据没问题,当使用一定数量数据时。他会在固定step卡住,观察资源占用:在卡住之前,CPU利用率几乎拉满...
0
评论
分享
Himon
算法工程师
·
9月前
关注
入门-文本摘要-课程提纲
Outline(规划) class1: 理论课:专题主要内容介绍;文本摘要问题定义和落地场景,目前业内的主流方案和框架和主要问题;常用数据集介绍;摘要质量评估方法,评价指标...
0
评论
分享
Himon
算法工程师
·
1年前
关注
DeepSeek技术解读-从MHA到MLA的完整解读(适合有点基础的同学)
一、传统的多头注意力机制(MHA,Multi-Head Attention): 在标准的Transformer中,多头注意力机制(MHA)通过并行计算多个注意力头来捕捉输入...
1
评论
分享
Himon
算法工程师
·
3年前
关注
面试知识点总结(机器学习)
记录面试过程中遇到的各种机器学习相关知识点,比较分散,比较干。包括传统机器学习算法,深度学习算法等。...
0
评论
分享
Himon
算法工程师
·
3年前
关注
激活函数总结
首先激活函数的作用是:对模型加入非线性因素,解决线性模型无法解决的问题。通过下图可以很清楚看到加入激活函数之后的变化: 下边对常用的激活函数做一个总结: Sigmoid 公...
1
评论
分享
Himon
算法工程师
·
3年前
关注
信息论基础
自信息量: 考虑一个随机事件$x$,它发生的概率为$p(x)$,我们另:$I(x) = -\log{(p(x))}$ 为随机事件$x$的自信息量。自信息熵表示某个随机事件发...
1
评论
分享
Himon
算法工程师
·
3年前
举报
建议认真思考一个功能:用户文章权限,有些文章不想展示出来又不想放在草稿箱。可以加密码,或者展示权限!
反馈 & 建议
分享
4
点赞
Himon
算法工程师
·
3年前
关注
Transformer相关
关于Transformer相关的知识点: 1. 残差 2. Layer Normalization 3. 两种mask:padding mask和sequence mask...
3
评论
分享
Himon
算法工程师
·
4年前
关注
字符串匹配-Sunday 算法
算法核心: 尽可能多的前进更多步 问题定义:在字符串"substring searching algorithm"中查找模式串"search"。 算法讲解: Sunday算...
1
1
分享
Himon
算法工程师
·
4年前
关注
windows10 安装 tensorflow-GPU 1.14 完全指导
一:系统与环境 系统:windows10 GPU:NVIDIA GeForce GTX TITAN X 首先要确定要安装的Tensorflow的版本以及他的对应的各种以来的...
1
评论
分享
Himon
算法工程师
·
4年前
关注
使用crontab创建定时任务
1. 使用场景 通过crontab 命令,我们可以在固定的间隔时间执行指定的系统指令或 shell script脚本。时间间隔的单位可以是分钟、小时、日、月、周及以上的任意...
0
评论
分享
Himon
算法工程师
·
4年前
关注
隐马尔可夫模型(HMM)
1. 隐马尔可夫模型定义 隐马尔可夫模型,根据字面意思。首先它一定存在马尔可夫链,即服从马尔可夫性质:无记忆性。也就是说,某一时刻的状态只受前一时刻影响,而与更早的状态无关...
0
评论
分享
Himon
算法工程师
·
4年前
关注
最大似然估计(MLE)
用一句话解释最大似然估计:它是一种模型参数估计方法,就是利用已知的样本分布,反推最有可能(出现概率最大)导致这种样本分布的模型参数。如果这样说还觉得抽象,我再举个例子。你放...
1
1
分享
下一页
个人成就
文章被点赞
121
文章被阅读
47,303
掘力值
1,181
关注了
6
关注者
24
收藏集
0
关注标签
5
加入于
2019-09-19