艳烔

赞

50

|

搜索文章

HDFS产出背景及定义 HDFS产出背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就

1年前
107
点赞
评论

Hadoop 常见错误及解决方案

防火墙没关闭,或者没有启动YARN 主机名称配置错误 IP地址配置错误 ssh 没有配置好 root 用户和 muyi 两个用户启动集群不统一配置文件修改不细心不识别主机名称解决办法: 在/et

1年前
248
点赞
评论

Hadoop 常用端口号说明&集群时间同步

常用端口号说明端口名称 Hadoop2.x Hadoop3.x NameNode 内部通信端口 8020 / 9000 8020 / 9000 /9820 NameNode HTTP UI 5007

1年前
309
点赞
评论

Hadoop集群启动/停止方式总结&编写Hadoop集群常用脚本

集群启动/停止方式总结各个模块分开启动/停止 (配置ssh 是前提) 常用整体启动/停止 HDFS 整体启动/停止YARN 各个服务组件逐一启动/停止分别启动/停止 HDFS 组件启动/停止Y

1年前
258
点赞
评论

(已解决)Hadoop之util.NativeCodeLoader: Unable to load native-hadoop library...

宿主机：Windows 11 虚拟机：VMware Pro 17 hadoop版本: 3.1.3 问题描述在我编写了一个hadoop启停脚本并使用它时,在启动过程中出现了下面这个警告这个警告通常不

1年前
165
1
评论

Scrapy之item的介绍和使用

简单示例 Scrapy 是一个用于网络爬虫的 Python 框架，它可以帮助开发者快速编写爬虫程序来抓取网页内容。在 Scrapy 中，Item 是一种容器，用来保存从网页中提取的数据。它类似于 Py

1年前
262
点赞
评论

Hadoop之配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上。日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。注意：开启日志聚集功能，需要重新启动 NodeManage

1年前
136
点赞
评论

Hadoop之历史服务器配置

Hadoop集群中配置历史服务器（History Server）的原因主要有以下几点：日志记录和分析：历史服务器可以存储和展示集群运行过程中的日志信息，这对于监控、分析和调试Hadoop作业非常重要

1年前
182
点赞
评论

Scrapy之实现翻页功能

Scrapy爬虫流程问题: 如何实现翻页爬取某网站尝试创建项目生成一个爬虫更换start_urls 这样就可以实现url的翻页功能了发送请求启动程序,就可以获取数据了取数据获取详情页

1年前
211
点赞
评论

Scrapy之logging模块的使用&logging basicConfig

Scrapy内置了强大的日志功能，可以帮助开发者跟踪爬虫的行为、调试问题以及记录重要信息。Scrapy的日志系统基于Python的标准logging模块，但提供了一些额外的功能和配置选项。参考文档:

1年前
96
点赞
评论

个人成就

文章被点赞 54

文章被阅读 18,211

掘力值 1,114

加入于

2024-08-25