首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 37 人订阅
共275篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-197 K折交叉验证实战:sklearn 看均值/方差,选更稳的 KNN 超参
训练/测试随机划分会导致评估指标不稳定,并给出工程化解法:K 折交叉验证(K-Fold Cross Validation)。通过 sklearn 的 cross_val_score 在训练集内部做多次
大数据-196 scikit-learn KNN 实战:KNeighborsClassifier、kneighbors 与学习曲线选最优 案例1红酒 案例2乳腺
从统一 API(fit/predict/transform/score)到 kneighbors 找出测试样本的 K 个最近邻,再到用学习曲线/参数曲线选择 n_neighbors(K 值)。
大数据-195 KNN/K近邻算法实战:欧氏距离+投票机制手写实现,含可视化与调参要点
KNN/K近邻算法(K-Nearest Neighbors, KNN):从欧氏距离计算、距离排序、TopK 投票到函数封装,给出可复现的 Python 代码与 matplotlib 可视化。重点解释
大数据-194 数据挖掘 从红酒分类到机器学习全景:监督/无监督/强化学习、特征空间与过拟合一次讲透
2025 年仍最常用的机器学习(Machine Learning)概念框架:监督学习(分类/回归)、无监督学习(聚类/降维)、半监督学习与强化学习(Agent-环境-奖励)。重点解释输入空间、输出空间
大数据-193 Apache Tez 实战:Hive on Tez 安装配置、DAG原理与常见坑
Apache Tez(示例版本 Tez 0.9.x)如何在 Hadoop2/YARN 上作为执行引擎替代 MapReduce,为 Hive on Tez、Pig on Tez 提供 DAG(有向无环图
大数据-192 DataX 3.0 架构与实战:Reader/Writer 插件模型、Job/TaskGroup 调度、speed/errorLimit 配置速
DataX(DataX 3.0)是阿里体系广泛使用并开源的离线数据同步/数据集成工具,面向企业级异构数据源同步(MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、
大数据-191 Elasticsearch 集群规划与调优:节点角色、分片副本、写入与搜索优化清单
Master / Data / Coordinating 三类节点职责与生产落地的角色隔离策略,给出容量规划的推算抓手(JVM Heap 30–32GB 上限、冷热数据与磁盘/IO 约束、水平扩容路径
大数据-190 Filebeat→Kafka→Logstash→Elasticsearch 实战
Filebeat 采集 Nginx access.log 写入 Kafka,Logstash 从 Kafka 消费后按字段(app/type)条件解析 message 内嵌 JSON,叠加 GeoIP
大数据-189 Nginx JSON 日志接入 ELK:ZK+Kafka+Elasticsearch 7.3.0+Kibana 实战搭建
通过 Nginx 配置 log_format json 输出结构化 access_log(包含 @timestamp、request_time、status、request_uri、ua 等字段)
大数据-188 Logstash Output 插件实战:stdout/file/Elasticsearch 输出配置与调优
Logstash Output 插件(Logstash 7.3.0)给出可复用的工程化落地:stdout(rubydebug)用于联调验数,file 输出用于本地归档与排障留痕
大数据-187 Logstash Filter 插件实战:grok 解析控制台与 Nginx 日志(7.3.0 配置可复用)
在 Logstash 7.3.0 环境下,用 grok 从控制台 stdin 与 Nginx 访问日志中提取结构化字段(IP、time_local、method、request、status、body
大数据-186 Logstash JDBC vs Syslog Input:原理、场景对比与可复用配置(基于 Logstash 7.3.0)
Logstash Input 插件对比,拆解 JDBC Input 与 Syslog 采集链路的技术差异、适用场景与关键配置。JDBC 通过 JDBC 驱动连接 MySQL 等关系型数据库
大数据-185 Logstash 7 入门实战:stdin/file 采集、sincedb/start_position 机制与排障
先用 stdin{} + stdout{codec=>rubydebug} 验证 pipeline 运行链路,再切到 file{} 监听真实日志文件,解释 sincedb 如何记录读取偏移
大数据-184 Elasticsearch Doc Values 机制详解:列式存储如何支撑排序/聚合/脚本
索引时生成的磁盘列式数据结构,面向排序、聚合与脚本取值优化;多数支持类型默认开启,text 字段默认不提供 doc values,需通过 keyword 子字段或启用 fielddata 才能聚合
大数据-183 Elasticsearch - 并发冲突与乐观锁、分布式数据一致性剖析
Elasticsearch 并发冲突(库存扣减的读-改-写)拆解“写覆盖”成因,并用 ES 的乐观并发控制(Optimistic Concurrency Control, OCC)给出可复现的工程解法
大数据-182 Elasticsearch 倒排索引底层拆解:Terms 字典、FST、SkipList 与 Lucene 索引文件
Elasticsearch 倒排索引 的核心数据结构展开:Terms Dictionary(词典)、Posting List(倒排表)、以及 Lucene 的 FST(有限状态转换器) 与 Skip
大数据-181 Elasticsearch 段合并与磁盘目录拆解:Merge Policy、Force Merge、Shard 文件结构一文搞清
解释 refresh 导致小段增多、段合并如何在后台把小段并入大段并清理已删除文档,为什么段过多会带来句柄/内存/CPU与查询开销。工程侧给出 merge 相关配置点:merge scheduler
大数据-180 Elasticsearch 近实时搜索:Segment、Refresh、Flush、Translog 全流程解析
Lucene Segment、Memory Buffer、File System Cache、Refresh、Flush 以及 Translog(事务日志)几个核心组件展开,解释为什么 Elastic
大数据-179 Elasticsearch 倒排索引与读写流程全解析:从 Lucene 原理到 Query/Fetch 实战
Elasticsearch 中倒排索引(Inverted Index)的原理与实现,从正向索引 vs 倒排索引的差异入手,结合分词流程、Term Dictionary、Posting List 等核心
大数据-178 Elasticsearch 7.3 Java 实战:索引与文档 CRUD 全流程示例
elasticsearch-rest-high-level-client 实现索引和文档的增删改查,包括:通过 JSON 与 XContentBuilder 两种方式创建索引、配置分片与副本、删除索引
下一页