首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
全部
后端
Java
面试
Python
Go
大数据
架构
数据库
Spring Boot
展开
全部
后端
Java
面试
Python
Go
大数据
架构
数据库
Spring Boot
前端
.NET
MySQL
Elasticsearch
C#
Trae
暂无数据
推荐
最新
大数据-200 决策树信息增益详解:信息熵、ID3 选特征与 Python 最佳切分实现
决策树信息增益(Information Gain)”展开,先用信息熵(Entropy)解释不纯度,再说明为何在节点切分时要最大化父节点熵与子节点熵之差:在 Ent(D) 固定的前提下,最大化 Gain
大数据-197 K折交叉验证实战:sklearn 看均值/方差,选更稳的 KNN 超参
训练/测试随机划分会导致评估指标不稳定,并给出工程化解法:K 折交叉验证(K-Fold Cross Validation)。通过 sklearn 的 cross_val_score 在训练集内部做多次
大数据-198 KNN 必须先归一化:Min-Max 正确姿势、数据泄露陷阱与 sklearn 落地
scikit-learn(1.x)机器学习训练流程中,KNN 这类距离模型对“量纲不统一”极其敏感:欧式距离的平方和会让数值尺度更大的特征主导距离,从而显著拖垮分类效果。Min-Max 归一化
大数据-195 KNN/K近邻算法实战:欧氏距离+投票机制手写实现,含可视化与调参要点
KNN/K近邻算法(K-Nearest Neighbors, KNN):从欧氏距离计算、距离排序、TopK 投票到函数封装,给出可复现的 Python 代码与 matplotlib 可视化。重点解释
Flink源码阅读:窗口
前文我们梳理了 Watermark 相关的源码,Watermark 的作用就是用来触发窗口,本文我们就一起看一下窗口相关的源码。 写在前面 在Flink学习笔记:窗口一文中,我们介绍了窗口的分类以及基
大数据-194 数据挖掘 从红酒分类到机器学习全景:监督/无监督/强化学习、特征空间与过拟合一次讲透
2025 年仍最常用的机器学习(Machine Learning)概念框架:监督学习(分类/回归)、无监督学习(聚类/降维)、半监督学习与强化学习(Agent-环境-奖励)。重点解释输入空间、输出空间
大数据-193 Apache Tez 实战:Hive on Tez 安装配置、DAG原理与常见坑
Apache Tez(示例版本 Tez 0.9.x)如何在 Hadoop2/YARN 上作为执行引擎替代 MapReduce,为 Hive on Tez、Pig on Tez 提供 DAG(有向无环图
转转大数据与AI——数据治理安全打标实践
一、导读 这次主要分享介绍的是转转在大数据治理方面应用AI大模型技术实现的自动安全打标,本文主要从以下几个方面逐一介绍,首先是应用背景介绍、技术方案的实现与落地、以及对整个应用的优化实践,最后对后续的
Flink源码阅读:双流操作
今天来梳理一下 Flink 双流操作相关的源码。 写在前面 通过Flink学习笔记:多流 Join一文的介绍,我们知道 Flink 有三种数据关联的方式,分别是 Window Join、Interva
大数据-191 Elasticsearch 集群规划与调优:节点角色、分片副本、写入与搜索优化清单
Master / Data / Coordinating 三类节点职责与生产落地的角色隔离策略,给出容量规划的推算抓手(JVM Heap 30–32GB 上限、冷热数据与磁盘/IO 约束、水平扩容路径
大数据-189 Nginx JSON 日志接入 ELK:ZK+Kafka+Elasticsearch 7.3.0+Kibana 实战搭建
通过 Nginx 配置 log_format json 输出结构化 access_log(包含 @timestamp、request_time、status、request_uri、ua 等字段)
大数据-190 Filebeat→Kafka→Logstash→Elasticsearch 实战
Filebeat 采集 Nginx access.log 写入 Kafka,Logstash 从 Kafka 消费后按字段(app/type)条件解析 message 内嵌 JSON,叠加 GeoIP
大数据-199 决策树模型详解:节点结构、条件概率视角与香农熵计算
决策树模型(Decision Tree)展开,面向分类任务系统梳理:树的三类节点(根节点/内部节点/叶节点)、从根到叶的递归分裂流程,以及“分而治之”的规则生成机制。在理论层面,给出决策树的条件概率分
大数据-188 Logstash Output 插件实战:stdout/file/Elasticsearch 输出配置与调优
Logstash Output 插件(Logstash 7.3.0)给出可复用的工程化落地:stdout(rubydebug)用于联调验数,file 输出用于本地归档与排障留痕
大数据-186 Logstash JDBC vs Syslog Input:原理、场景对比与可复用配置(基于 Logstash 7.3.0)
Logstash Input 插件对比,拆解 JDBC Input 与 Syslog 采集链路的技术差异、适用场景与关键配置。JDBC 通过 JDBC 驱动连接 MySQL 等关系型数据库
大数据-185 Logstash 7 入门实战:stdin/file 采集、sincedb/start_position 机制与排障
先用 stdin{} + stdout{codec=>rubydebug} 验证 pipeline 运行链路,再切到 file{} 监听真实日志文件,解释 sincedb 如何记录读取偏移
大数据-187 Logstash Filter 插件实战:grok 解析控制台与 Nginx 日志(7.3.0 配置可复用)
在 Logstash 7.3.0 环境下,用 grok 从控制台 stdin 与 Nginx 访问日志中提取结构化字段(IP、time_local、method、request、status、body
大数据-182 Elasticsearch 倒排索引底层拆解:Terms 字典、FST、SkipList 与 Lucene 索引文件
Elasticsearch 倒排索引 的核心数据结构展开:Terms Dictionary(词典)、Posting List(倒排表)、以及 Lucene 的 FST(有限状态转换器) 与 Skip
大数据-184 Elasticsearch Doc Values 机制详解:列式存储如何支撑排序/聚合/脚本
索引时生成的磁盘列式数据结构,面向排序、聚合与脚本取值优化;多数支持类型默认开启,text 字段默认不提供 doc values,需通过 keyword 子字段或启用 fielddata 才能聚合
vivo Celeborn PB级Shuffle优化处理实践
本文将分享vivo在Celeborn实际应用过程中对遇到问题的分析和解决方案,用于帮助读者对相似问题进行参考。