大数据 - zzf7645368的收藏集 - 掘金

大数据

更多收藏集

10篇文章 · 0订阅

如何高效地存储与检索大规模的图谱数据？

摘要：本文简要介绍知识图谱的存储与检索相关的知识。本文分享自华为云社区《知识图谱的存储与检索》，原文作者：JuTzungKuei 。

华为云开发者联盟
4年前
1.2k
1
评论

数据治理：说起来容易，做起来难？这个方法论值得收藏

数据治理数据分析数据治理数据分析数据治理数据分析数据治理数据分析数据治理数据分析数据治理数据分析数据治理数据分析

IT技术管理的那些事儿
4年前
2.4k
3
评论

如何使用数据分析进行风险评估？

量化风险是制定重要业务决策的重要组成部分。大多数企业组织通过以前的经验和业务敏锐度来评估风险。由于它不是基于精确的科学，因此这种风险评估方法将是不准确的。错误会导致生产成本增加、交货延迟等问题。因此

易知微EasyV数字孪生可视化
4年前
915
4
评论

经典：5种常见的数据分析方法

从IT时代转型到DT时代，数据将会是整个时代数一数二的大宗商品，将是整个时代的石油。数据分析是将数据和公司业务连接起来的有力手段！

尤而小屋
4年前
2.1k
6
1

0.052秒打开100GB数据，这个Python开源库火爆了！

许多组织都在尝试收集和利用尽可能多的数据，以改善其经营方式，增加收入和提升影响力。因此，数据科学家面对50GB甚至500GB大小的数据集情况变得越来越普遍。不过，这类数据集使用起来不太容易。它们足够小，可以装入日常笔记本电脑的硬盘驱动器中，但同时大到无法装入RAM，导致它们已…

奈何缘浅wyj
5年前
2.9k
16
2

0.052秒打开100GB数据，这个Python开源库火爆了！

当Spark遇上TensorFlow分布式深度学习框架原理和实践

近年来，机器学习和深度学习不断被炒热，tensorflow 作为谷歌发布的数值计算和神经网络的新框架也获得了诸多关注，spark和tensorflow深度学习框架的结合，使得tensorflow在现有的spark集群上就可以进行深度学习，而不需要为深度学习设置单独的集群，为了深…

蓝色的叶子
7年前
7.4k
13
评论

大白话详解大数据hive知识点，老刘真的很用心(2)

前言：老刘不敢说写的有多好，但敢保证尽量用大白话把自己复习的内容详细解释出来，拒绝资料上的生搬硬套，做到有自己的了解！1.hive知识点(2)第12点：hive分桶表hive知识点主要偏实践，很多人会

大数据老刘
5年前
648
4
评论

大数据开发---数仓拉链表概述，以及如何迭代或者回滚

拉链表是什么，在数仓建立时候，一种重要的表数据处理方式，可以将数据结构于算法，类比于拉链表于数仓，旨在解决数仓建立里面的SCD需求，那么什么是SCD，就是缓慢变化维，随着时间流逝，数据相对事实表发生缓慢变化。本文主要讲解拉链表来处理SCD的问题，其特点归纳以下，有以下几种场景…

Hoult丶吴邪
5年前
836
8
4

共享单车数据集探索及可视化

分析摩拜单车订单的相关数据对骑行时长的影响情况，以此作为业务运营优化的参考和依据（由于原数据集中无订单金额的数据，又因摩拜单车是以骑行时长作为计费标准的，骑行时长是影响订单金额大小的最重要因素，故本分析针对骑行时长展开）。主要集中在分析骑行时间（包括工作日/双休日、高峰时段/…

Alfred_lv
5年前
3.3k
6
1

安利一个Python大数据分析神器！

对于Pandas运行速度的提升方法，之前已经介绍过很多回了，里面经常提及Dask，很多朋友没接触过可能不太了解，今天就推荐一下这个神器。 Pandas和Numpy大家都不陌生了，代码运行后数据都加载到RAM中，如果数据集特别大，我们就会看到内存飙升。但有时要处理的数据并不适合R…

Python数据科学
5年前
4.1k
15
4