首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
jumin1806
创建于2022-09-12
订阅专栏
主要是讲述大数据组件方面的使用知识
等 1 人订阅
共10篇文章
创建于2022-09-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
python采用jdbc连接oracle
之前写了一篇python采用jdbc连接kerberos认证的hive,本文是采用LDAP用户名和密码的方式连接Oracle,并且提供一种自动关闭游标和数据库连接的方式,方便使用; 方法 具体代
python采用jdbc连接kerberos认证的hive
最近在开发中遇到了一个场景,公司需要连接kerberos认证的Hive,正常的情况下直接用pyhive就可以了,网上可以找到许多相关的解决方案,但是我们在使用中发现了一个问题,pyhive使用的
谈谈个人对python3中迭代器的理解
目前在重新学习python,在学习python时重新学习到迭代器,这里对迭代器进行总结; 首先是一些基础的定义: (1)可迭代对象: 目前来说,数组,元组集合,字典,字符串都是可迭代对象,这些可迭代对
impala3.0版本使用问题解决
在用impala3版本时,出现了几个问题,以下是问题和解决方法: 1.impala执行出现异步的问题 问题:在impala3.0版本时,采用pyhive,impyla,以及hue这些python li
python logging日志简介
最近在写flask的web程序,中间涉及到对日志的配置,这边记录以下使用的情况 我的代码使用的是python的logging的模块,python的logging模块和java的log4j有点相似; 基
yarn介绍
yarn出现的原因和优点 在hadoop 1.0时,mapreduce作业执行的任务调度调度由jobtracker和tasktracker,这样增加了namenode的负担,并且,在tasktrack
hdfs介绍
HDFS是大数据的文件存储系统,它由3个组件组成,分别是client,namenode和datanode,以下是对这三个组件的介绍; HDFS Client HDFS Client的主要只能由如下几个
Elasticsearch查询10000条之后的信息
elsaticsearch是一个分布式的、RESTful 风格的搜索和数据分析引擎,由于是分布式的,在es中默认设置最多可以查询前10000条的数据,当要查询10000条之后的数据,可以采用如下的两种
Hive进行数据迁移和同步的过程
当前,需要将集群的数据从HDP迁移到CDP的集群当中,因此要将HDP中的表在CDP上构建,并将HDP中的数据复制到CDP中,以下是具体的处理逻辑; 版本: HDP中hive版本,1.2.1 CDP中h
采用pyspark开发structstreaming写入Hive表
最近开发了sparkstreaming的程序,且开发语言是采用python的,下述记录了开发的具体代码和过程,方便今后重复使用; 使用场景 需要从kafka的topic上消费数据,最终写入到hadoo