首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
豆豆酱
掘友等级
阿里巴巴
程序媛
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
3
文章 3
沸点 0
赞
3
返回
|
搜索文章
豆豆酱
@阿里巴巴
·
17天前
关注
【随笔】一些有趣的算法题(不定时更新)
Expression Evaluation 数据流单调栈四则运算 LintCode 367,368 题目: Given an expression string array...
0
评论
分享
豆豆酱
@阿里巴巴
·
17天前
举报
Fine-Tune DeepSeek-R1
www.kdnuggets.com
分享
评论
点赞
豆豆酱
@阿里巴巴
·
17天前
举报
LangChainStudy
github.com
分享
评论
点赞
豆豆酱
@阿里巴巴
·
17天前
举报
MiniCPM-V
blog.csdn.net
分享
评论
点赞
豆豆酱
@阿里巴巴
·
17天前
举报
提示工程指南
www.promptingguide.ai
分享
评论
点赞
豆豆酱
@阿里巴巴
·
17天前
举报
nixtlaverse.nixtla.io
Informer
分享
评论
点赞
豆豆酱
@阿里巴巴
·
23天前
关注
Informer方法论详解
https://arxiv.org/abs/2012.07436 稀疏注意力机制(ProbSparse Self-attention) Efficient Self-atte...
1
6
分享
豆豆酱
@阿里巴巴
·
23天前
关注
Transformer结构详解
https://arxiv.org/pdf/1706.03762 基于 Transformer 的编码器和解码器结构如图所示,左侧和右侧分别对应着编码器(Encoder)和...
0
评论
分享
豆豆酱
@阿里巴巴
·
26天前
关注
Neural Prophet 时序预测模型
在时间序列预测领域,将时序分解成趋势和周期等成分是非常经典的分析方法。来自Facebook的开源时序模型Prophet在传统的基于趋势和周期成分分解的基础上更进一步,衍生出...
0
评论
分享
豆豆酱
@阿里巴巴
·
27天前
关注
拒绝采样微调 Rejection Sampling
Rejection Sampling 拒绝采样 (Rejection Sampling, RS) 是一种流行且简单的方法,用于执行偏好微调。拒绝采样通过策划新的candid...
1
评论
分享
豆豆酱
@阿里巴巴
·
29天前
关注
采样方法小览
马尔可夫链蒙特卡洛(MCMC) Metropolis-Hastings (MH) Metropolis-Hastings (MH) 算法是一种用于从复杂的概率分布中生成样本...
2
评论
分享
豆豆酱
@阿里巴巴
·
1月前
关注
模型评估指标小概
语言模型评估 BLEU(Bilingual Evaluation Understudy)和ROUGE(Recall-Oriented Understudy for Gist...
1
评论
分享
豆豆酱
@阿里巴巴
·
1月前
关注
DeepSeek-R1 Approach
就是把 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning...
0
评论
分享
豆豆酱
@阿里巴巴
·
1月前
关注
知识蒸馏 Distilling the Knowledge in a Neural Network
论文地址:https://arxiv.org/abs/1503.02531 Introduction 在文章开头作者举了一个非常形象的例子说明知识蒸馏的重要性。在自然界中,...
1
评论
分享
豆豆酱
@阿里巴巴
·
1月前
关注
prompt提示工程初级到高级用法指南
【初阶】 【入门】吴恩达Prompt公开课 【视频教程(英文版)】https://www.bilibili.com/video/BV1GYzCYmEYb 【视频教程(中文版...
0
评论
分享
豆豆酱
@阿里巴巴
·
1月前
关注
强化学习到大模型训练理论概要(五)
Lecture 14 Monte Carlo Tree Search Simulation-Based Search 仅针对当前状态计算动作 到目前为止,课堂上计算的是整个...
1
评论
分享
豆豆酱
@阿里巴巴
·
1月前
关注
强化学习到大模型训练理论概要(四)
Lecture 11 Fast Reinforcement Learning 设置、框架与方法 接下来将会考虑两种设置、多种框架和方法。 设置:赌博机问题(单次决策)、马尔...
1
评论
分享
豆豆酱
@阿里巴巴
·
1月前
关注
强化学习到大模型训练理论概要(三)
Lecture 8 Human Feedback and Reinforcement Learning from Human Preferences Pairwise Co...
1
评论
分享
豆豆酱
@阿里巴巴
·
1月前
关注
强化学习到大模型训练理论概要(二)
Lecture 5 Policy Gradient I 1. Policy Optimization Value-based RL 学习的是 near-determinis...
1
评论
分享
下一页
个人成就
文章被点赞
67
文章被阅读
26,691
掘力值
1,239
关注了
2
关注者
27
收藏集
0
关注标签
0
加入于
2020-11-27