Wendyhub

赞

5

|

搜索文章

赞

文章( 5 ) 沸点( 0 )

强化学习—PPO（Proximal Policy Optimization）算法原理及实现

近端策略优化（PPO）算法是OpenAI在2017提出的一种强化学习算法，本文将从PPO算法的基础入手，理解从传统策略梯度算法直到PPO算法的演进过程，以及算法迭代过程中的优化细节。

安可可可可
2年前
10k
5
2

什么是列式存储，一文秒懂

我们最先接触的数据库系统，大部分都是行存储系统。大学的时候学数据库，老师让我们将数据库想象成一张表格，每条数据记录就是一行数据，每行数据包含若干列。所以我们对大部分数据存储的思维也就是一个复杂一点的表格管理系统。我们在一行一行地写入数据，然后按查询条件查询过滤出我们想要的行记录…

码哥字节
5年前
25k
39
8

(建议收藏)TCP协议灵魂之问，巩固你的网路底层基础

TCP 作为传输层的协议，是一个软件工程师素养的体现，也是面试中经常被问到的知识点。在此，我将 TCP 核心的一些问题梳理了一下，希望能帮到各位。 001. 能不能说一说 TCP 和 UDP 的区别？ TCP是一个面向连接的、可靠的、基于字节流的传输层协议。而UDP是一个面向…

神三元
6年前
100k
2.0k
104

linux极简小知识：17、查询rpm包的默认安装路径，及改变rpm包默认安装路径

通常，RPM 包采用系统默认的安装路径。安装文件会按照类别分别安装到不同的目录，如下所示；RPM 包还可以手动指定安装路径（不推荐）...

代码迷途
4年前
5.7k
18
评论

linux极简小知识：17、查询rpm包的默认安装路径，及改变rpm包默认安装路径

【最短路径Floyd算法详解推导过程】看完这篇，你还能不懂Floyd算法？还不会？

简单的说就是解决任意两点间的最短路径的一种算法，可以正确处理有向图或负权的最短路径问题，同时也被用于计算有向图的传递闭包。Floyd-Warshall算法的时间复杂度为O(N3)，空间复杂度为O(N2)。 a）如图：存在【0,1,2,3】 4个点，两点之间的距离就是边上的数字，…

Halburt
6年前
17k
10
5

个人成就

文章被阅读 133

加入于

2022-12-05