从大数据到人工智能

大数据平台开发工程师

大数据与人工智能经验分享

赞

133

|

搜索文章

centos7 rpm包及其全量依赖包下载方法

执行完上述下载命令之后即可在/tmp/glibc-dependency目录下看到glibc及其全量依赖。

4年前
206
3
评论

centos7 rpm仓库全量下载方法

* base: mirrors.163.* epel: mirrors.bfsu.edu.* extras: mirrors.aliyun.* updates: mirror-hk.koddos.pgdg96/7/x86_64 PostgreSQL 9.如上图所示，repo id...

4年前
238
2
评论

Snap, AppImage和 Flatpak之间差异

早些时候，想要为各种Linux发行版分发应用程序的开发人员在打包方面面临许多挑战。这是因为市场上有许多Linux发行版，并且都使用不同的包管理系统。例如，Ubuntu和其他基于debian的发行版使用 .deb包扩展，而Fedora、CentOS、RHEL使用 .rpm包扩展。这...

4年前
1.4k
4
评论

hdfs命令行指南

Hadoop包括各种shell类命令，它们直接与HDFS和Hadoop支持的其他文件系统交互。 bin/hdfs dfs -help列出了Hadoop shell支持的命令。此外，命令bin/hdfs dfs -help command-name可以显示命令的更详细的帮助。这...

4年前
233
1
评论

Hudi异步Clustering

在之前的一篇博客文章中，我们引入了一种新的名为clustering的表服务，它可以重组数据，从而在不影响写入速度的情况下提高查询性能。我们学习了如何设置inline clustering。在这篇文章中，我们将讨论自那以后发生的变化，并看看如何使用HoodieClusterin...

4年前
621
1
评论

Hudi Clustering特性

Apache Hudi为大数据带来了流处理，在提供新鲜数据的同时，比传统批处理效率高一个数量级。在数据湖/数据仓库中，关键的权衡之一是输入速度和查询性能之间的权衡。数据摄取通常倾向于小文件，以提高并行性，并使数据能够尽快用于查询。但是，如果有很多小文件，查询性能就会下降。此外，在...

4年前
588
1
评论

Hudi内核分析之虚拟键（Virtual Keys）

Apache Hudi根据不同的表类型、配置参数来帮助您构建和管理数据湖，以满足每个人的需要。Hudi添加了每个记录的元数据字段，如_hoodie_record_key， _hoodie_partition path， _hoodie_commit_time，它有多种用途。它们有...

4年前
327
1
评论

使用spark3操作hudi数据湖初探

hadoop 3.2.0 spark 3.0.3-bin-hadoop3.2 hudi 0.8.本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成，请确保hadoop集群正常启动。wget https://dlcdn.apache.org...

4年前
325
1
评论

使用flink插入数据到hudi数据湖初探

hadoop 3.2.0 flink 1.11.4-bin-scala_2.11 hudi 0.8.本文基于上述组件版本使用flink插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成，请确保hadoop集群正常启动。wget https://mirrors.tuna.t...

4年前
185
1
评论

Hudi：Apache Hadoop上的增量处理框架

本文部分翻译自2017.3.随着ApacheParquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展，Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而，为了实现这一点，这需要在HDFS中实现高效且低延迟的数据...

4年前
505
1
评论

个人成就

文章被点赞 175

文章被阅读 57,095

加入于

2022-01-10