首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Himon
掘友等级
算法工程师
大家好,我是一只梦想环游世界的程序猿。 就像相信大米能够煮成米饭,我也相信数据和算法的力量。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
43
文章 42
沸点 1
赞
43
返回
|
搜索文章
Himon
算法工程师
·
1月前
关注
MOE原理介绍和代码解读
MEGABLOCKS Switch Transformers 模型介绍 Swith Transformer的MoE设计是门控网络每次只route到1个专家。采用softma...
0
评论
分享
Himon
算法工程师
·
1月前
关注
位置编码RoPE介绍及其优化
绝对位置编码 传统的BERT中的实现方法,假设模型最大输出长度是512,向量纬度是768,需要先初始化一个512*768的位置编码矩阵。在每个位置,将位置编码直接加到tok...
0
评论
分享
Himon
算法工程师
·
1月前
关注
Qwen1、2、3模型全解析
Qwen: 1.分词器采用BPE: 核心思想:先按照字符切分,逐渐合并出现频率高的子词。 问题: BPE理论上还是会出现OOV的,当词汇表受限,语料中又没有出现过某个子词,...
0
评论
分享
Himon
算法工程师
·
1月前
关注
LLM参数有效性学习综述
全参数微调 1.显存占用分析: 如果微调一个3B的模型: 模型参数本身的显存: 模型有30亿个参数:3B = 3 * billion 不同精度下的显存占用: FP32(每个...
0
评论
分享
Himon
算法工程师
·
1月前
关注
DeepSeek模型解析
DeepSeek-V2 Multi-head Latent Attention (MLA) 传统的多头注意力机制(MHA,Multi-Head Attention): 在标...
0
评论
分享
Himon
算法工程师
·
1月前
关注
Agent设计模式总结
ReAct模式 1.简述 LLM根据当前的结果(Observation),推理和思考(Thought),决定执行什么行动(Action),通过function call的机...
0
评论
分享
Himon
算法工程师
·
1月前
关注
Agent-Memory介绍
一:短期记忆:大模型上下文 就是大模型的上下文 二:中期记忆:执行任务记忆 对上一阶段的对话进行阶段性摘要。根据任务精心设计prompt,目标明确。摘要序列存储。 即将Ag...
0
评论
分享
Himon
算法工程师
·
4月前
关注
大规模预训练模型预训练工作记录
1.背景 2.训练 训练过程在固定step卡住 问题描述:使用小批量数据没问题,当使用一定数量数据时。他会在固定step卡住,观察资源占用:在卡住之前,CPU利用率几乎拉满...
0
评论
分享
Himon
算法工程师
·
4月前
关注
入门-文本摘要-课程提纲
Outline(规划) class1: 理论课:专题主要内容介绍;文本摘要问题定义和落地场景,目前业内的主流方案和框架和主要问题;常用数据集介绍;摘要质量评估方法,评价指标...
0
评论
分享
Himon
算法工程师
·
7月前
关注
DeepSeek技术解读-从MHA到MLA的完整解读(适合有点基础的同学)
一、传统的多头注意力机制(MHA,Multi-Head Attention): 在标准的Transformer中,多头注意力机制(MHA)通过并行计算多个注意力头来捕捉输入...
1
评论
分享
Himon
算法工程师
·
3年前
关注
面试知识点总结(机器学习)
记录面试过程中遇到的各种机器学习相关知识点,比较分散,比较干。包括传统机器学习算法,深度学习算法等。...
0
评论
分享
Himon
算法工程师
·
3年前
关注
激活函数总结
首先激活函数的作用是:对模型加入非线性因素,解决线性模型无法解决的问题。通过下图可以很清楚看到加入激活函数之后的变化: 下边对常用的激活函数做一个总结: Sigmoid 公...
1
评论
分享
Himon
算法工程师
·
3年前
关注
信息论基础
自信息量: 考虑一个随机事件$x$,它发生的概率为$p(x)$,我们另:$I(x) = -\log{(p(x))}$ 为随机事件$x$的自信息量。自信息熵表示某个随机事件发...
1
评论
分享
Himon
算法工程师
·
3年前
举报
建议认真思考一个功能:用户文章权限,有些文章不想展示出来又不想放在草稿箱。可以加密码,或者展示权限!
反馈 & 建议
分享
4
点赞
Himon
算法工程师
·
3年前
关注
Transformer相关
关于Transformer相关的知识点: 1. 残差 2. Layer Normalization 3. 两种mask:padding mask和sequence mask...
3
评论
分享
Himon
算法工程师
·
3年前
关注
字符串匹配-Sunday 算法
算法核心: 尽可能多的前进更多步 问题定义:在字符串"substring searching algorithm"中查找模式串"search"。 算法讲解: Sunday算...
1
1
分享
Himon
算法工程师
·
3年前
关注
windows10 安装 tensorflow-GPU 1.14 完全指导
一:系统与环境 系统:windows10 GPU:NVIDIA GeForce GTX TITAN X 首先要确定要安装的Tensorflow的版本以及他的对应的各种以来的...
1
评论
分享
Himon
算法工程师
·
3年前
关注
使用crontab创建定时任务
1. 使用场景 通过crontab 命令,我们可以在固定的间隔时间执行指定的系统指令或 shell script脚本。时间间隔的单位可以是分钟、小时、日、月、周及以上的任意...
0
评论
分享
Himon
算法工程师
·
3年前
关注
隐马尔可夫模型(HMM)
1. 隐马尔可夫模型定义 隐马尔可夫模型,根据字面意思。首先它一定存在马尔可夫链,即服从马尔可夫性质:无记忆性。也就是说,某一时刻的状态只受前一时刻影响,而与更早的状态无关...
0
评论
分享
Himon
算法工程师
·
3年前
关注
最大似然估计(MLE)
用一句话解释最大似然估计:它是一种模型参数估计方法,就是利用已知的样本分布,反推最有可能(出现概率最大)导致这种样本分布的模型参数。如果这样说还觉得抽象,我再举个例子。你放...
1
1
分享
下一页
个人成就
文章被点赞
121
文章被阅读
42,217
掘力值
1,171
关注了
6
关注者
24
收藏集
0
关注标签
5
加入于
2019-09-19