首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
SoWhat1412
掘友等级
公众号:sowhat1412
|
快手
点点滴滴 皆是学问
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
92
文章 91
沸点 1
赞
92
返回
|
搜索文章
最新
热门
3. 清洗常用4板斧
这是Python数据分析实战基础的第三篇内容,主要对前两篇进行补充,把实际数据清洗场景下常用但零散的方法,按增、删、查、分四板斧的逻辑进行归类,以减少记忆成本,提升学习和使用效率。 上述三个级别数据在同一个excel中不同Sheet中。 首先,导入案例数据集。因为案例数据存放在…
2. 灵活的Pandas索引
学习了Pandas的同学,有超过60%仍然投向了Excel的怀抱,之所以做此下策,多半是因为刚开始用Python处理数据时,选择想要的行和列实在太痛苦,完全没有Excel想要哪里点哪里的快感。 初识Pandas 教程考虑到篇幅问题只讲了最基础的列向索引,但这显然不能满足同志们日…
1. 初识Pandas
1. 重要前言 这段时间和一些做数据分析的同学闲聊,我发现数据分析技能入门阶段存在一个普遍性的问题,很多凭着兴趣入坑的同学,都能够很快熟悉Python基础语法,然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中,硬着头皮啃完之后,好像自己什么都会了一点,然而实际…
一文搞定PageRank
(pageID,listList) 包含每个页面的相邻页面列表。 在每次迭代中,对页面p,向其每个相邻页面(有直接连接的页面)发松一个值为 rank(p)/numNeighbors(p)的贡献值。 其中2 跟3 会重复循环几次,在此过程中算法会逐渐收敛于每个页面的实际PageR…
第一天:spark基础
Hadoop 的概念可追溯到 2003,2004 Google2篇论文(老版三辆马车),2011年发布1.0版本,2012年发布稳定版。 Hadoop 在2.0版本之前组件主要是 HDFS跟MapReduce。 重点:在RM中 通过ApplicationMaster隔离Driv…
Hbase 概述
1. 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的顶级项目来开发维护,用于支持结构化的数据存储。 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Serv…
Zookeeper实战
定义:微服务时代,多个相同的jar包在不同的服务器上开启相同的服务,可以通过nginx在服务端进行负载均衡的配置。也可以通过ZooKeeper在客户端进行负载均衡配置。 用SpringBoot完成一个最简单的web服务,并且连接zk服务器,实现注册功能。 可以改变server.…
浅谈大数据中的 2PC、3PC、Paxos、ZAB
一致性,是指对每个节点一个数据的更新,整个集群都知道更新,并且是一致的。假设一个具有N个节点的分布式系统,当其满足以下条件时,我们说这个系统满足一致性: 前面 已经讨论过,在分布式环境下,有很多不确定性因素,故障随时都回发生,也讲了CAP理论,BASE理论。我们希望达到在分布式…
分布式系统浅谈
一个tomcat打天下的时代,不能说完全淘汰了,在一个管理系统,小型项目中还经常使用,这并不过分,出于成本的考虑,这反而值得提倡。但如果要延伸到高并发场景下就必然要了解分布式系统: 这是他的特点,更细致的看这些特点又可以有:分布性、对等性、并发性、缺乏全局时钟、故障随时会发生。…
分布式思维概述
富客户端方案。卖软件可赚钱。qq、影音、游戏。早期流行。 Web 1. 0 一般的雏型如下图,用户通过浏览器输入网址进行域名解析,然后从CDN上获得静态资源,从后台服务器获得HTML文件,这些信息拼装组成显示的网页。 横向复制的集群跟纵向切分的分布式环境。 1. 早期雏形 2.…
下一页
个人成就
文章被点赞
567
文章被阅读
85,419
掘力值
3,402
关注了
15
关注者
293
收藏集
4
关注标签
22
加入于
2019-11-24