首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
豆豆酱
掘友等级
阿里巴巴
程序媛
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
3
文章 3
沸点 0
赞
3
返回
|
搜索文章
最新
热门
强化学习到大模型训练理论概要(五)
Lecture 14 Monte Carlo Tree Search Simulation-Based Search 仅针对当前状态计算动作 到目前为止,课堂上计算的是整个状态空间的策略。 关键思想:
强化学习到大模型训练理论概要(四)
Lecture 11 Fast Reinforcement Learning 设置、框架与方法 接下来将会考虑两种设置、多种框架和方法。 设置:赌博机问题(单次决策)、马尔可夫决策过程(MDPs)。
强化学习到大模型训练理论概要(三)
Lecture 8 Human Feedback and Reinforcement Learning from Human Preferences Pairwise Comparisons 通常来说
强化学习到大模型训练理论概要(二)
Lecture 5 Policy Gradient I 1. Policy Optimization Value-based RL 学习的是 near-deterministic policy,但是
强化学习到大模型训练理论概要(一)
这篇文章主要介绍了强化学习中大模型训练的相关理论,包括马尔可夫决策过程(MDP)的基础概念、值迭代和策略迭代等求解方法,还涵盖了Monte Carlo方法、Temporal Difference学习
微服务-服务注册与发现
本章主要介绍以下内容: 1. 什么是服务发现?(what) 1. 微服务框架下为什么需要服务发现呢?(why) 1. 服务发现是怎么运作的呢?(how) 1. CAP定理 1. 现有的几种
设计模式 (更新中)
https://www.bilibili.com/video/BV1af4y1y7sS/?spm_id_from=333.337.search-card.all.click&vd_source=292
那些年奇怪的面试题(遇到就更 持续更新)
53张牌中找出缺少的牌的花色和点数 https://blog.csdn.net/weixin_30770783/article/details/95660920 一个很长的字符串,内存装不下,如何进行
海量数据中寻找中位数
题目 只有2G内存的pc机,在一个存有10G个整数的文件,从中找到中位数,写一个算法。 思路一:外排序(排序-归并) 什么是外排序 外排序就是由于数据量太大不能一次性加载到内存,所以需要先暂时用外存储
【系统设计】设计微博 Twitter 微信朋友圈
系统设计的评分标准 可行性 特定问题 分析能力 权衡 知识储备 系统设计问题4S分析法 Scenario 场景 需要设计哪些功能,设计的多牛 Ask / Features / QPS / DAU /
下一页
个人成就
文章被点赞
67
文章被阅读
28,578
掘力值
1,242
关注了
2
关注者
26
收藏集
0
关注标签
0
加入于
2020-11-27