首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
sean
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
InnoDB数据页结构及其与聚簇索引的关系
InnoDB中数据都存放在一个空间中,就是表空间。在文件系统中就是idb文件,每个idb文件都是一个表空间。它们之间通过表空间id来区分,在默认情况下,InnoDB使用的是共享表空间,所有数据存放在一个共享表空间ibdata1中。共享表空间可以通过参数innodb_data_f…
布隆过滤器-Bloom Filter
Bloom Filter是由 Burton Howard Bloom在1970提出的,用来判断一个元素是否存在集合中的概率算法。经过Bloom Filter判断过不在集合中的元素就一定不在集合中,若判断结果是在集合中,则可能会误判,即该元素可能不在集合中。换句话说,可能会误…
超平面
在数学中,**超平面(Hyperplane)**是n维欧氏空间中余维度等于1的线性子空间。这是平面中的直线、空间中的平面之推广. 其中,$w$与$x$都是$d$维列向量,$x=(x_1,x_2,...,x_n)$为超平面上的点,$w=(w_1,w_2,...,w_n)$为平面上…
非整数0-1背包问题
0-1背包问题通常情况下物品的重量是整数的,采用动态规划可以解决,在解决物品重量非整数情况下的背包问题之前,我们先来回顾整数背包问题,并从中寻找解决非整数背包问题的方法。 问题定义:有n种物品和一个容量为$c$的背包,第$i$件物品的重量为$wi$,价格为$vi$,求出哪种物品…
HDFS扩容
无法将两块磁盘的空间结合使用,一块磁盘空间占满,即使加入一块新磁盘也无法对原来磁盘上的分区扩容。 但是这种方式只是增加新磁盘到hdfs中,原来的老磁盘空间依旧被占满。如果老磁盘的容量比新磁盘小,当之后hdfs不断添加新数据,老磁盘依旧占满比新磁盘快,为了防止hdfs的存储容量无…
字符串编辑距离
编辑距离(Edit Distance),这里指的是Levenshtein距离,也就是字符串S1通过插入、修改、删除三种操作最少能变换成字符串S2的次数。接下来介绍利用动态规划来求解字符串的编辑距离。 定义:$s_1$和$s_2$表示两字符串,$dist(i, j)$表示字符串$…
MapReduce-多路径输出
如果想把file1和file2的内容放入不同的目录下,可以通过指定baseOutputPath,将file1开头的文件放在同一个目录中管理。 指定baseOutputPath输出路径和输出文件名直接按照baseOutPutPath指定,但是默认输出文件名后缀会跟上-r-0000…
MapReduce-排序
mapreduce机制中排序只会针对键进行排序,所以如果想对某个数据进行排序,一定要将其设置为map输出的键,排序主要发生在map的spill和合并spill file阶段和reduce拉取复制map端的数据后合并成reduce文件时。 如果设置mapreduce.job.ou…
Hadoop-小文件处理
hadoop的HDFS和MapReduce本身都是用户处理大量数据的大文件,对于小文件来说,由于namenode会在记录每个block对象,如果存在大量的小文件,会占用namenode的大量内存空间,而且HDFS存储文件是按block来存储,即使一个文件的大小不足一个block…
个人成就
文章被点赞
12
文章被阅读
17,961
掘力值
407
关注了
1
关注者
3
收藏集
0
关注标签
0
加入于
2021-02-20