首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据
元Y亨H
创建于2024-03-25
订阅专栏
专注于大数据的技术
等 1 人订阅
共35篇文章
创建于2024-03-25
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Kafka 核心配置
Broker 基础配置 broker.id: 每个 Kafka 节点的唯一标识。 例如:broker.id=0,多个节点需设置为不同值。 log.dirs: 指定日志数据存储的路径。 示例:log.d
Python - requests 爬取方法
介绍 以下是使用requests库编写GET和POST请求的Python模板: 1. GET请求模板 2. POST请求模板 说明: GET请求常用于从服务器获取数据,参数附加在URL后。 POST请
Python - Selenium 爬虫翻页代码
代码示例 下面是 Selenium 爬虫翻页代码,已改进并添加注释,适用于百度搜索翻页的场景: 优化点: 改进滑动页面逻辑:通过执行 JavaScript 滑动页面到底部,模拟用户滑动操作,确保页面内
Python - 使用XPath提取数据并下载图片
1. 项目需求 我们将从一个网页中抓取图片数据,提取图片的URL,并将图片下载到本地。我们将使用lxml库结合XPath来定位网页中的图片元素。 2. 环境准备 安装必要的Python库: 3. 完整
Python - BeautifulSoup 爬取方法
介绍 要用 BeautifulSoup 实现从网页中获取图片并下载的功能,可以按照以下步骤进行操作。BeautifulSoup 是一个解析HTML和XML文档的Python库,可以非常方便地提取网页中
Python - jsonpath 爬取方法
介绍 要用 jsonpath 实现类似的需求,首先需要明确你想要解析的文档是JSON格式的数据。jsonpath 是用于解析和提取JSON数据的路径表达式语言,类似于XPath用于XML的数据解析。假
Python - xpath 爬取方法
介绍 要使用Python和XPath下载百度上面的图片,可以通过requests库获取网页内容,并使用lxml库解析HTML结构,提取图片URL,然后下载图片。以下是一个简单的实现: 1. 安装必要的
Python - Handler代理池
代码示例 代码规范 代理池的构建:你可以使用一个代理池(Proxy Pool),从中随机选择一个代理来发送请求。可以通过从一个代理提供者获取代理(例如,公开的代理池服务或自己搭建的代理池)并存储它们。
Python - Handler代理
代码示例 代码规范 代理格式问题:在 proxies 字典中,代理地址和端口号应该写为 'http://ip:port' 的形式。 代码规范:应该增加代码的可读性,调整代码格式,增加适当的注释和空行。
Python - ajax的post请求爬取方法
代码示例 代码规范 函数命名和注释:确保函数名清晰且符合 PEP 8 标准,使用文档字符串对每个函数进行详细说明。 避免硬编码:将配置项(如 URL、请求头等)提取到常量或配置文件中,增强代码的灵活性
Python - ajax的get请求爬取方法
豆瓣电影 AJAX GET 请求爬虫 说明 目标URL:定义爬取的豆瓣电影页面的JSON数据API地址,并通过GET请求获取电影列表。 请求头设置:为了模拟正常的浏览器请求,使用带有 User-Age
Hive 的分区表和分桶表
在Hive中,创建表可以使用不同的方式,以下是一些常见的SQL示例: 创建普通表: 创建带分区的表: 创建后,可以通过以下语句添加分区: 使用 AS 语句创建表: 使用 LIKE 语句创建表:
Hive UDF、UDAF、UDTF的区别
在Hive中,UDF(用户定义函数)、UDAF(用户定义聚合函数)和UDTF(用户定义表生成函数)之间的主要区别如下: UDF:操作单个数据行,返回单个值。适用于简单的行级计算,如数学或字符串处理。
Hive 的数据类型
Hive支持多种数据类型,主要分为两类: 基本数据类型: 整数类型:TINYINT, SMALLINT, INT, BIGINT 浮点数类型:FLOAT, DOUBLE 布尔型:BOOLEAN 字符串
Hive的内部表与外部表
在Hive中,内部表和外部表的主要区别如下: 数据管理: 内部表:Hive完全管理数据,包括数据的存储和生命周期。当删除内部表时,表数据也会被删除。 外部表:Hive仅记录数据的位置,不对数据进行管理
Hive 创建表的语法
在Hive中创建表的基本语法为: EXTERNAL:可选,表示创建外部表,数据存储在HDFS上但不由Hive管理。 IF NOT EXISTS:可选,避免因表已存在而报错。 table_name:表的
Hive架构原理
Hive是构建在Hadoop之上的数据仓库工具,主要用于处理大规模结构化数据。其架构设计如下: 架构图 用户接口层:提供CLI、JDBC、ODBC等接口供用户提交HQL(Hive Query Lang
数仓 - 拉链表
拉链表(Zipper Table)在数据仓库中的应用 拉链表是一种在数据仓库中用于管理和跟踪维度数据变化的表设计方法,通常用于实现慢变维(Slowly Changing Dimensions, SCD
Flink 配置文件 - flink-conf.yaml
```shell ################################################################################ # Licensed
Flink 是如何保证 Exactly-once 语义的
Flink 通过以下几个机制来保证 Exactly-once 语义,即每条记录被处理且仅被处理一次,避免重复处理或数据丢失。具体实现依赖于 分布式快照(Checkpoints) 和 两阶段提交协议(T
下一页