大数据

大数据

大数据

大数据搭建，分析，可视化.

等 3 人订阅共19篇文章创建于2022-04-27

深入浅出SQL排序与函数

在SQL中，排序和函数是对数据进行处理和操作的重要工具。排序能够让数据按照特定顺序排列，而函数则提供了对数据进行计算、转换和操作的能力。在本篇博客中，我们将深入探讨SQL排序和函数的相关知识。 SQL

2年前
818
点赞
评论

停用词究竟有何妙用：优化分词、精进LDA模型

引言：在自然语言处理领域，文本数据的处理是一项至关重要的任务。而在处理文本数据时，分词是一个必不可少的步骤，它将文本拆分成有意义的词语或短语，为后续的文本分析和挖掘奠定了基础。然而，传统的分词方法往

2年前
1.1k
点赞
评论

精准定制：利用本地词库优化Jieba分词，提升景区评论数据LDA建模效果

引言：在进行景区评论数据的LDA建模时，精确的分词是至关重要的。然而，通用的分词工具在处理特定领域的文本时可能表现不佳。针对这一挑战，本文探讨了如何利用本地词库，特别是搜狗词库中关于旅游领域的专业词

2年前
1.0k
2
评论

解析旅游者心声：用PySpark和SnowNLP揭秘景区评论的情感秘密

简介：在本篇博客中，我们将探讨如何利用PySpark和SnowNLP这两个强大的工具来分析大规模的旅游评论数据。通过结合携程和去哪儿的数据作为示例，我们将探索如何从海量的评论中提取有价值的情感信息和

2年前
1.2k
2
评论

深入Spark与LDA：大规模文本主题分析实战

使用LDA模型和Spark进行文本主题分析本篇博客介绍了如何使用LDA（潜在狄利克雷分配）模型和Spark进行文本主题分析。我们的目标是从大量的用户评论中提取出主题。 1. 环境设置首先，我们需要

2年前
1.1k
2
评论

pyhive入门介绍和实例分析（探索票价与景点评分之间是否存在相关性）

介绍 PyHive 是一组 Python DB-API 和 SQLAlchemy 接口，可用于 Presto 和 Hive。它为 Python 提供了一个与 Presto 和 Hive 进行交互的平台

2年前
559
点赞
评论

使用Apache Hive进行大数据分析的关键配置详解

Apache Hive是一个在Hadoop上构建的数据仓库工具，它允许用户通过类似SQL的语言（HiveQL）进行数据查询和分析。在使用Hive进行大数据分析之前，需要配置一些重要的参数以确保系统正常

2年前
315
点赞
评论

使用 PySpark 进行数据清洗与 JSON 格式转换的实践详解（保姆级编码教程）

在大数据处理中，PySpark 提供了强大的工具来处理海量数据，特别是在数据清洗和转换方面。本文将介绍如何使用 PySpark 进行数据清洗，并将数据格式转换为 JSON 格式的实践。简介 PySp

2年前
1.7k
7
评论

Sqoop入门：如何下载、配置和使用

下载和配置 Sqoop是Apache的一个开源工具，主要用于在Hadoop和关系数据库之间传输数据。以下是一些关于如何下载和配置Sqoop的步骤：下载Sqoop：你可以从Apache的官方网站下载S

2年前
809
点赞
评论

解决 Hive 外部表分隔符问题的实用指南

简介：在使用 Hive 外部表时，分隔符设置不当可能导致数据导入和查询过程中的问题。本文将详细介绍如何解决在 Hive 外部表中正确设置分隔符的步骤。问题描述：在使用Hive外部表时，可能会遇到

2年前
1.2k
点赞
评论

探索主题建模：使用LDA分析文本主题

在数据分析和文本挖掘领域，主题建模是一种强大的工具，用于自动发现文本数据中的隐藏主题。Latent Dirichlet Allocation（LDA）是主题建模的一种常用技术。本文将介绍如何使用Pyt

2年前
3.4k
4
评论

广电用户画像分析之使用SVM预测用户是否挽留

在本篇博客中，我们将介绍如何使用支持向量机（SVM）模型来预测用户是否挽留。我们将使用Spark的ML库来实现这一目标，并通过构建和训练SVM模型，以及对测试集进行预测和评估，来解决这个分类问题。筛

2年前
876
点赞
评论

广电用户画像分析之根据用户行为数据进行筛选与标签添加

在数据处理和分析领域，我们经常需要根据用户的行为数据进行筛选和标签添加，以便更好地理解用户行为和偏好。在本篇博客中，我们将介绍两个示例，展示如何根据用户的收视行为数据和订单信息进行数据处理和分析。前

2年前
900
1
评论

广电用户画像分析之根据客户消费内容添加标签

本篇博客将介绍如何添加用户消费标签和用户消费等级标签. 建议阅读之前先阅读数据预处理的博客再读本篇博客. 相关前提：广电用户画像分析之数据基本分析与预处理 - 掘金 (juejin.cn) 根据客户

2年前
638
点赞
评论

广电用户画像分析之数据基本分析与预处理

引言数据分析在今天的数字化时代变得越来越重要，尤其是对于媒体行业来说。了解用户的收视行为和对媒体的偏好可以帮助媒体公司制定更有效的营销策略和优化内容推荐。本文将介绍如何使用Spark进行广电数据的基

2年前
743
3
评论

广电用户画像分析之探索各个表中的记录数和字段phone_no的空值数

首先我们需要搭建大数据环境，详情可参考下文构建大数据环境：Hadoop、MySQL、Hive、Scala和Spark的安装与配置 - 掘金 (juejin.cn) 数据集分析根据提供的五个数据集，

2年前
506
2
评论

构建大数据环境：Hadoop、MySQL、Hive、Scala和Spark的安装与配置

前言在当今的数据驱动时代，构建一个强大的大数据环境对于企业和组织来说至关重要。本文将介绍如何安装和配置Hadoop、MySQL、Hive、Scala和Spark，以搭建一个完整的大数据环境。简介

2年前
1.8k
1
评论

大数据分析--聚类分析简介及划分方式.

日新计划第四天聚类概述: 什么是聚类？是把数据对象集合按照相似性划分成多个子集的过程。每个子集是一个簇（cluster），分类的最终效果：使得簇中的对象彼此相似，但与其他簇中的对象相异。聚类是

2年前
131
点赞
评论

Spark RDD的一些常用转换算子

Spark用Scala语言实现了RDD的API，程序开发者可以通过调用API对RDD进行操作处理。RDD经过RDD处理过程中的“转换”操作主要用于根据已有RDD创建新的RDD，供给下一个转换算子使用。

3年前
244
点赞
评论