首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Java爬虫大数据
订阅
路见阳光
更多收藏集
微信扫码分享
微信
新浪微博
QQ
6篇文章 · 0订阅
大数据是什么?
大数据是指海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。 大数据的4V特征,即Variety(多样化)、Volume(大量化)、Velocity(快速化)、Value(价值密度低)。如下图所示。其中,Var…
Java网络爬虫实操(10)
使用chrome浏览器访问网页,需要使用对应平台和版本的driver程序。 实现一个继承SeleniumAction的类,执行逻辑都在这里。 以上代码只是例子,实际工作中action逻辑会比较复杂。我们可以根据需求,把action拆分为多个,通过list装配到加载器,框架会根据…
史上最详细的 Hadoop 环境搭建(上篇)
这是一篇入门文章,Hadoop 的学习方法很多。本文的思路是:以安装部署 Apache Hadoop2.x 版本为主线,来介绍 Hadoop2.x 的架构组成、各模块协同工作原理、技术细节。安装不是目的,通过安装认识Hadoop才是目的。
Hadoop和大数据:60款顶级开源工具
这回我们推出了最新的顶级开源大数据工具排行榜。这个领域最近方兴未艾,许多新项目纷纷启动。许多最知名的项目由Apache基金会管理,与Hadoop密切相关。请注意:本文不是要搞什么排名;相反,项目按类别加以介绍。与往常一样,要是你知道另外的开源大数据及/或Hadoop工具应该榜
初识Hadoop
初始大数据什么是大数据?学习基础要求Hadoop的功能和优势hadoop是开源的、分布式存储、分布式计算平台,可以用来搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务Hadoop包括两个核心
网易云歌词爬取(java)
.... 。。。。(≧∇≦)ノ 第一次写文章有点小激动...