导师办公室里的惊喜：看到Hadoop+Spark基站分析系统后他眼前一亮💖💖作者：计算机编程小咖 💙💙个人简介：

💖💖作者：计算机编程小咖 💙💙个人简介：曾长期从事计算机专业培训教学，本人也热爱上课教学，语言擅长Java、微信小程序、Python、Golang、安卓Android等，开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。平常喜欢分享一些自己开发中遇到的问题的解决办法，也喜欢交流技术，大家有技术代码这一块的问题可以问我！ 💛💛想说的话：感谢大家的关注与支持！ 💜💜 网站实战项目安卓/小程序实战项目大数据实战项目深度学习实战项目

@TOC

国家基站整点数据分析系统介绍

《基于大数据的国家基站整点数据分析系统》是一个综合运用现代大数据技术栈的数据分析平台，该系统采用Hadoop分布式存储架构结合Spark大数据处理引擎，实现对国家基站整点数据的高效存储、处理和分析。系统支持Python+Django和Java+Spring Boot双技术栈开发方案，前端采用Vue+ElementUI+Echarts技术组合构建现代化用户界面，后端通过HDFS进行海量数据存储，利用Spark SQL进行数据查询优化，结合Pandas和NumPy进行深度数据分析处理，数据持久化采用MySQL数据库管理。系统功能模块完整，包含系统首页展示、大屏数据可视化、用户权限管理、国家基站信息管理等核心业务模块，特别是在数据分析方面，系统提供应用气象专题分析、气象要素关联分析、气象时间序列分析、风速风向综合分析等多维度分析功能，通过Echarts图表组件实现数据的直观可视化展示。整个系统架构设计合理，技术选型先进，既体现了大数据技术在实际业务场景中的应用价值，又通过丰富的分析功能模块展现了数据驱动决策的重要性，为基站数据的深度挖掘和智能分析提供了完整的技术解决方案，是一个典型的大数据应用项目实践案例。

国家基站整点数据分析系统演示视频

演示视频

国家基站整点数据分析系统演示图片

登陆界面.png

风速风向综合分析.png

国家基站信息管理.png

气象时间时序列分析.png

气象要素关联分析.png

数据大屏.png

应用气象专题分析.png

用户管理.png

国家基站整点数据分析系统代码展示

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
import pandas as pd
import numpy as np
from django.http import JsonResponse
from django.views.decorators.csrf import csrf_exempt
import json
from datetime import datetime, timedelta
import pymysql

spark = SparkSession.builder.appName("BaseStationDataAnalysis").config("spark.sql.adaptive.enabled", "true").config("spark.sql.adaptive.coalescePartitions.enabled", "true").getOrCreate()

@csrf_exempt
def weather_element_correlation_analysis(request):
   if request.method == 'POST':
       data = json.loads(request.body)
       start_date = data.get('start_date')
       end_date = data.get('end_date')
       station_ids = data.get('station_ids', [])
       base_station_df = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/basestation_db").option("dbtable", "base_station_data").option("user", "root").option("password", "password").load()
       weather_df = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/basestation_db").option("dbtable", "weather_data").option("user", "root").option("password", "password").load()
       filtered_base_df = base_station_df.filter((col("record_time") >= start_date) & (col("record_time") <= end_date))
       if station_ids:
           filtered_base_df = filtered_base_df.filter(col("station_id").isin(station_ids))
       filtered_weather_df = weather_df.filter((col("record_time") >= start_date) & (col("record_time") <= end_date))
       joined_df = filtered_base_df.join(filtered_weather_df, ["station_id", "record_time"], "inner")
       correlation_result = joined_df.select(corr("signal_strength", "temperature").alias("signal_temp_corr"), corr("signal_strength", "humidity").alias("signal_humidity_corr"), corr("signal_strength", "pressure").alias("signal_pressure_corr"), corr("traffic_load", "temperature").alias("traffic_temp_corr"), corr("traffic_load", "humidity").alias("traffic_humidity_corr"), corr("coverage_range", "wind_speed").alias("coverage_wind_corr")).collect()[0]
       weather_impact_df = joined_df.groupBy("weather_condition").agg(avg("signal_strength").alias("avg_signal"), avg("traffic_load").alias("avg_traffic"), count("*").alias("record_count")).orderBy(desc("record_count"))
       temperature_groups = joined_df.withColumn("temp_range", when(col("temperature") < 0, "低温").when(col("temperature") < 20, "中温").otherwise("高温")).groupBy("temp_range").agg(avg("signal_strength").alias("avg_signal"), stddev("signal_strength").alias("signal_std"))
       humidity_impact = joined_df.withColumn("humidity_level", when(col("humidity") < 40, "低湿度").when(col("humidity") < 70, "中湿度").otherwise("高湿度")).groupBy("humidity_level").agg(avg("coverage_range").alias("avg_coverage"), max("coverage_range").alias("max_coverage"), min("coverage_range").alias("min_coverage"))
       correlation_data = {"signal_temp_corr": float(correlation_result["signal_temp_corr"]) if correlation_result["signal_temp_corr"] else 0, "signal_humidity_corr": float(correlation_result["signal_humidity_corr"]) if correlation_result["signal_humidity_corr"] else 0, "signal_pressure_corr": float(correlation_result["signal_pressure_corr"]) if correlation_result["signal_pressure_corr"] else 0, "traffic_temp_corr": float(correlation_result["traffic_temp_corr"]) if correlation_result["traffic_temp_corr"] else 0, "traffic_humidity_corr": float(correlation_result["traffic_humidity_corr"]) if correlation_result["traffic_humidity_corr"] else 0, "coverage_wind_corr": float(correlation_result["coverage_wind_corr"]) if correlation_result["coverage_wind_corr"] else 0}
       weather_impact_data = [{"weather_condition": row["weather_condition"], "avg_signal": float(row["avg_signal"]), "avg_traffic": float(row["avg_traffic"]), "record_count": row["record_count"]} for row in weather_impact_df.collect()]
       temp_group_data = [{"temp_range": row["temp_range"], "avg_signal": float(row["avg_signal"]), "signal_std": float(row["signal_std"]) if row["signal_std"] else 0} for row in temperature_groups.collect()]
       humidity_data = [{"humidity_level": row["humidity_level"], "avg_coverage": float(row["avg_coverage"]), "max_coverage": float(row["max_coverage"]), "min_coverage": float(row["min_coverage"])} for row in humidity_impact.collect()]
       return JsonResponse({"status": "success", "correlation_analysis": correlation_data, "weather_impact": weather_impact_data, "temperature_groups": temp_group_data, "humidity_impact": humidity_data})
   return JsonResponse({"status": "error", "message": "Invalid request method"})

@csrf_exempt  
def time_series_analysis(request):
   if request.method == 'POST':
       data = json.loads(request.body)
       station_id = data.get('station_id')
       analysis_period = data.get('analysis_period', 'day')
       metric_type = data.get('metric_type', 'signal_strength')
       time_range = data.get('time_range', 30)
       end_date = datetime.now()
       start_date = end_date - timedelta(days=time_range)
       base_station_df = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/basestation_db").option("dbtable", "base_station_hourly").option("user", "root").option("password", "password").load()
       filtered_df = base_station_df.filter((col("station_id") == station_id) & (col("record_time") >= start_date.strftime('%Y-%m-%d')) & (col("record_time") <= end_date.strftime('%Y-%m-%d')))
       if analysis_period == 'hour':
           time_series_df = filtered_df.withColumn("time_group", date_format(col("record_time"), "yyyy-MM-dd HH:00:00")).groupBy("time_group").agg(avg(metric_type).alias("avg_value"), max(metric_type).alias("max_value"), min(metric_type).alias("min_value"), count("*").alias("data_points")).orderBy("time_group")
       elif analysis_period == 'day':
           time_series_df = filtered_df.withColumn("time_group", date_format(col("record_time"), "yyyy-MM-dd")).groupBy("time_group").agg(avg(metric_type).alias("avg_value"), max(metric_type).alias("max_value"), min(metric_type).alias("min_value"), count("*").alias("data_points")).orderBy("time_group")
       else:
           time_series_df = filtered_df.withColumn("time_group", date_format(col("record_time"), "yyyy-MM")).groupBy("time_group").agg(avg(metric_type).alias("avg_value"), max(metric_type).alias("max_value"), min(metric_type).alias("min_value"), count("*").alias("data_points")).orderBy("time_group")
       time_series_data = time_series_df.collect()
       trend_analysis_df = filtered_df.withColumn("day_of_week", dayofweek(col("record_time"))).withColumn("hour_of_day", hour(col("record_time"))).groupBy("day_of_week", "hour_of_day").agg(avg(metric_type).alias("avg_value")).orderBy("day_of_week", "hour_of_day")
       peak_analysis = filtered_df.groupBy(date_format(col("record_time"), "yyyy-MM-dd").alias("date")).agg(max(metric_type).alias("daily_max"), min(metric_type).alias("daily_min"), avg(metric_type).alias("daily_avg")).withColumn("daily_range", col("daily_max") - col("daily_min")).orderBy(desc("daily_range"))
       anomaly_threshold = filtered_df.agg(avg(metric_type).alias("mean"), stddev(metric_type).alias("std")).collect()[0]
       mean_val = float(anomaly_threshold["mean"])
       std_val = float(anomaly_threshold["std"])
       upper_bound = mean_val + 2 * std_val
       lower_bound = mean_val - 2 * std_val
       anomalies = filtered_df.filter((col(metric_type) > upper_bound) | (col(metric_type) < lower_bound)).select("record_time", metric_type, "station_id").orderBy(desc("record_time")).limit(20)
       moving_avg_window = 7
       if analysis_period == 'hour':
           moving_avg_window = 24
       time_series_result = [{"time_group": row["time_group"], "avg_value": float(row["avg_value"]), "max_value": float(row["max_value"]), "min_value": float(row["min_value"]), "data_points": row["data_points"]} for row in time_series_data]
       trend_result = [{"day_of_week": row["day_of_week"], "hour_of_day": row["hour_of_day"], "avg_value": float(row["avg_value"])} for row in trend_analysis_df.collect()]
       peak_result = [{"date": row["date"], "daily_max": float(row["daily_max"]), "daily_min": float(row["daily_min"]), "daily_avg": float(row["daily_avg"]), "daily_range": float(row["daily_range"])} for row in peak_analysis.collect()[:10]]
       anomaly_result = [{"record_time": row["record_time"].strftime('%Y-%m-%d %H:%M:%S'), "value": float(row[metric_type]), "station_id": row["station_id"]} for row in anomalies.collect()]
       return JsonResponse({"status": "success", "time_series": time_series_result, "trend_analysis": trend_result, "peak_analysis": peak_result, "anomalies": anomaly_result, "statistics": {"mean": mean_val, "std": std_val, "upper_bound": upper_bound, "lower_bound": lower_bound}})
   return JsonResponse({"status": "error", "message": "Invalid request method"})

@csrf_exempt
def wind_speed_direction_analysis(request):
   if request.method == 'POST':
       data = json.loads(request.body)
       station_ids = data.get('station_ids', [])
       analysis_type = data.get('analysis_type', 'comprehensive')
       date_range = data.get('date_range', 30)
       wind_threshold = data.get('wind_threshold', 5.0)
       end_date = datetime.now()
       start_date = end_date - timedelta(days=date_range)
       wind_data_df = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/basestation_db").option("dbtable", "wind_measurement").option("user", "root").option("password", "password").load()
       base_station_df = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/basestation_db").option("dbtable", "base_station_performance").option("user", "root").option("password", "password").load()
       filtered_wind_df = wind_data_df.filter((col("measurement_time") >= start_date.strftime('%Y-%m-%d')) & (col("measurement_time") <= end_date.strftime('%Y-%m-%d')))
       filtered_base_df = base_station_df.filter((col("record_time") >= start_date.strftime('%Y-%m-%d')) & (col("record_time") <= end_date.strftime('%Y-%m-%d')))
       if station_ids:
           filtered_wind_df = filtered_wind_df.filter(col("station_id").isin(station_ids))
           filtered_base_df = filtered_base_df.filter(col("station_id").isin(station_ids))
       joined_df = filtered_wind_df.join(filtered_base_df, [filtered_wind_df.station_id == filtered_base_df.station_id, date_format(filtered_wind_df.measurement_time, "yyyy-MM-dd HH") == date_format(filtered_base_df.record_time, "yyyy-MM-dd HH")], "inner")
       wind_direction_ranges = joined_df.withColumn("direction_range", when((col("wind_direction") >= 0) & (col("wind_direction") < 45), "北").when((col("wind_direction") >= 45) & (col("wind_direction") < 90), "东北").when((col("wind_direction") >= 90) & (col("wind_direction") < 135), "东").when((col("wind_direction") >= 135) & (col("wind_direction") < 180), "东南").when((col("wind_direction") >= 180) & (col("wind_direction") < 225), "南").when((col("wind_direction") >= 225) & (col("wind_direction") < 270), "西南").when((col("wind_direction") >= 270) & (col("wind_direction") < 315), "西").otherwise("西北"))
       direction_impact = wind_direction_ranges.groupBy("direction_range").agg(avg("signal_strength").alias("avg_signal"), avg("coverage_range").alias("avg_coverage"), count("*").alias("measurement_count"), avg("wind_speed").alias("avg_wind_speed")).orderBy(desc("measurement_count"))
       speed_categories = joined_df.withColumn("speed_category", when(col("wind_speed") < 2, "微风").when(col("wind_speed") < 6, "轻风").when(col("wind_speed") < 12, "中风").when(col("wind_speed") < 20, "强风").otherwise("大风")).groupBy("speed_category").agg(avg("signal_strength").alias("avg_signal"), avg("error_rate").alias("avg_error_rate"), count("*").alias("count"))
       high_wind_impact = joined_df.filter(col("wind_speed") > wind_threshold).groupBy(filtered_wind_df.station_id).agg(avg("signal_strength").alias("high_wind_signal"), avg("coverage_range").alias("high_wind_coverage"), count("*").alias("high_wind_hours"))
       normal_wind_impact = joined_df.filter(col("wind_speed") <= wind_threshold).groupBy(filtered_wind_df.station_id).agg(avg("signal_strength").alias("normal_wind_signal"), avg("coverage_range").alias("normal_wind_coverage"), count("*").alias("normal_wind_hours"))
       wind_comparison = high_wind_impact.join(normal_wind_impact, "station_id", "outer").fillna(0).withColumn("signal_impact", col("normal_wind_signal") - col("high_wind_signal")).withColumn("coverage_impact", col("normal_wind_coverage") - col("high_wind_coverage"))
       extreme_wind_events = joined_df.filter(col("wind_speed") > wind_threshold * 2).select(filtered_wind_df.station_id, "measurement_time", "wind_speed", "wind_direction", "signal_strength", "error_rate").orderBy(desc("wind_speed")).limit(50)
       wind_rose_data = wind_direction_ranges.groupBy("direction_range").agg(avg("wind_speed").alias("avg_speed"), count("*").alias("frequency")).withColumn("percentage", col("frequency") * 100.0 / sum("frequency").over()).orderBy("direction_range")
       seasonal_pattern = joined_df.withColumn("month", month(col("measurement_time"))).withColumn("season", when(col("month").isin([12, 1, 2]), "冬季").when(col("month").isin([3, 4, 5]), "春季").when(col("month").isin([6, 7, 8]), "夏季").otherwise("秋季")).groupBy("season").agg(avg("wind_speed").alias("avg_seasonal_speed"), avg("signal_strength").alias("avg_seasonal_signal"))
       direction_data = [{"direction": row["direction_range"], "avg_signal": float(row["avg_signal"]), "avg_coverage": float(row["avg_coverage"]), "measurement_count": row["measurement_count"], "avg_wind_speed": float(row["avg_wind_speed"])} for row in direction_impact.collect()]
       speed_data = [{"category": row["speed_category"], "avg_signal": float(row["avg_signal"]), "avg_error_rate": float(row["avg_error_rate"]), "count": row["count"]} for row in speed_categories.collect()]
       comparison_data = [{"station_id": row["station_id"], "signal_impact": float(row["signal_impact"]) if row["signal_impact"] else 0, "coverage_impact": float(row["coverage_impact"]) if row["coverage_impact"] else 0, "high_wind_hours": row["high_wind_hours"] if row["high_wind_hours"] else 0, "normal_wind_hours": row["normal_wind_hours"] if row["normal_wind_hours"] else 0} for row in wind_comparison.collect()]
       extreme_events = [{"station_id": row["station_id"], "time": row["measurement_time"].strftime('%Y-%m-%d %H:%M:%S'), "wind_speed": float(row["wind_speed"]), "wind_direction": float(row["wind_direction"]), "signal_strength": float(row["signal_strength"]), "error_rate": float(row["error_rate"])} for row in extreme_wind_events.collect()]
       rose_data = [{"direction": row["direction_range"], "avg_speed": float(row["avg_speed"]), "frequency": row["frequency"], "percentage": float(row["percentage"])} for row in wind_rose_data.collect()]
       seasonal_data = [{"season": row["season"], "avg_speed": float(row["avg_seasonal_speed"]), "avg_signal": float(row["avg_seasonal_signal"])} for row in seasonal_pattern.collect()]
       return JsonResponse({"status": "success", "direction_analysis": direction_data, "speed_analysis": speed_data, "wind_comparison": comparison_data, "extreme_events": extreme_events, "wind_rose": rose_data, "seasonal_pattern": seasonal_data})
   return JsonResponse({"status": "error", "message": "Invalid request method"})

国家基站整点数据分析系统文档展示

文档.png