首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
黄昏下的等待
更多收藏集
微信扫码分享
微信
新浪微博
QQ
6篇文章 · 0订阅
Hadoop和大数据:60款顶级开源工具
这回我们推出了最新的顶级开源大数据工具排行榜。这个领域最近方兴未艾,许多新项目纷纷启动。许多最知名的项目由Apache基金会管理,与Hadoop密切相关。请注意:本文不是要搞什么排名;相反,项目按类别加以介绍。与往常一样,要是你知道另外的开源大数据及/或Hadoop工具应该榜
史上最全的 “大数据” 学习资源(上)
当今 “大数据” 一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代。为了帮助大家更好深入了解大数据,云栖社区组织翻译了 GitHub Awesome Big Data 资源,供大家参考。本资源类型主要包括:大数据框架、论文等实用资源集合。
如何用Python和机器学习训练中文文本情感分类模型?
利用Python机器学习框架scikit-learn,我们自己做一个分类模型,对中文评论信息做情感分析。其中还会介绍中文停用词的处理方法。 前些日子,我在微信后台收到了一则读者的留言。 我一下子有些懵——这怎么还带点播了呢? 但是旋即我醒悟过来,好像是我自己之前挖了个坑。 …
教你如何迅速秒杀掉99%的海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。 2、寻找热门查询,300万个查询字符串中统计最热门的10个查询。 3、上千万或上亿数据(有重复),统计其中出现次数最多的前N个数据。 4、海量数据分布在100台电脑中,想个办法高效统计出这批数据的TOP10。
大数据资源整理
scala、spark 使用过程中,各种测试用例以及相关资料整理
数据挖掘——决策树巩固与 Python 实现
决策树(decision tree)是一种类似于流程图的树结构(可以是二叉树也可以不是),其中,每个内部节点(非叶子结点)表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个叶子结点存放一个类标号。书的最顶层节点是根节点。