大数据

大数据

大数据

主要是讲述大数据组件方面的使用知识

等 1 人订阅共10篇文章创建于2022-09-12

python采用jdbc连接oracle

之前写了一篇python采用jdbc连接kerberos认证的hive，本文是采用LDAP用户名和密码的方式连接Oracle，并且提供一种自动关闭游标和数据库连接的方式，方便使用；方法具体代

1月前
48
点赞
评论

python采用jdbc连接kerberos认证的hive

最近在开发中遇到了一个场景，公司需要连接kerberos认证的Hive，正常的情况下直接用pyhive就可以了，网上可以找到许多相关的解决方案，但是我们在使用中发现了一个问题，pyhive使用的

1月前
63
点赞
评论

谈谈个人对python3中迭代器的理解

目前在重新学习python，在学习python时重新学习到迭代器，这里对迭代器进行总结；首先是一些基础的定义：（1）可迭代对象：目前来说，数组，元组集合，字典，字符串都是可迭代对象，这些可迭代对

3年前
61
点赞
评论

impala3.0版本使用问题解决

在用impala3版本时，出现了几个问题，以下是问题和解决方法： 1.impala执行出现异步的问题问题：在impala3.0版本时，采用pyhive，impyla，以及hue这些python li

3年前
203
点赞
评论

python logging日志简介

最近在写flask的web程序，中间涉及到对日志的配置，这边记录以下使用的情况我的代码使用的是python的logging的模块，python的logging模块和java的log4j有点相似；基

3年前
166
点赞
评论

yarn出现的原因和优点在hadoop 1.0时，mapreduce作业执行的任务调度调度由jobtracker和tasktracker，这样增加了namenode的负担，并且，在tasktrack

3年前
140
点赞
评论

HDFS是大数据的文件存储系统，它由3个组件组成，分别是client，namenode和datanode，以下是对这三个组件的介绍； HDFS Client HDFS Client的主要只能由如下几个

3年前
279
点赞
评论

Elasticsearch查询10000条之后的信息

elsaticsearch是一个分布式的、RESTful 风格的搜索和数据分析引擎，由于是分布式的，在es中默认设置最多可以查询前10000条的数据，当要查询10000条之后的数据，可以采用如下的两种

3年前
225
点赞
评论

Hive进行数据迁移和同步的过程

当前，需要将集群的数据从HDP迁移到CDP的集群当中，因此要将HDP中的表在CDP上构建，并将HDP中的数据复制到CDP中，以下是具体的处理逻辑；版本： HDP中hive版本，1.2.1 CDP中h

3年前
155
点赞
评论

采用pyspark开发structstreaming写入Hive表

最近开发了sparkstreaming的程序，且开发语言是采用python的，下述记录了开发的具体代码和过程，方便今后重复使用；使用场景需要从kafka的topic上消费数据，最终写入到hadoo

3年前
414
1
评论