大数据 - 想你我会笑的收藏集 - 掘金

大数据

想你我会笑

更多收藏集

9篇文章 · 0订阅

LLM系统性学习完全指南

前言这篇文章将系统性的讲解LLM（Large Language Models, LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究

GA琥珀
8月前
613
4
1

Hadoop Ozone如何巧妙利用Multi-Raft机制优化数据节点吞吐量

背景作为近期Hadoop社区的明星项目，Hadoop Ozone吸引了社区广泛的关注。它脱胎于HDFS，不仅同时支持文件系统和对象语义，能原生对接HDFS和S3两种访问模式，也将集群的读写性能和吞吐

腾讯大数据官方
4年前
1.5k
4
评论

TiKV + SPDK，探索存储的性能极限

近日，由 TiDB 社区主办，专属于全球开发者与技术爱好者的顶级挑战赛事——TiDB Hackathon 2020 比赛圆满落幕。今年是 TiDB Hackathon 第四次举办，参赛队伍规模创历届之最，共有 45 支来自全球各地的队伍报名，首次实现全球联动。经过 2 天时间的…

PingCAP
5年前
605
1
评论

疯一样的向自己发问 - 剖析lsm 索引原理

疯一样的向自己发问 - 剖析lsm 索引原理 lsm简析 lsm 更像是一种设计索引的思想。它把数据分为两个部分，一部分放在内存里，一部分是存放在磁盘上,内存里面的数据检索方式可以利用红黑树，跳表这种

蓝胖子的编程梦
3年前
1.4k
5
评论

疯一样的向自己发问 - 剖析lsm 索引原理

分布式存储 | 雪崩效应

mythmgn(笔者)是此篇旧文的作者,曾发布在其他平台,从本月开始在博客园连载自己的技术文章和思考(觉得markdown的支持好用!).转载请注明出处,谢谢.欢迎大家左侧关注我的公号,一起在技术领域

寒星月冷
6年前
129
1
评论

HBase 读流程解析与优化的最佳实践

本文首先对 HBase 做简单的介绍，包括其整体架构、依赖组件、核心服务类的相关解析。再重点介绍 HBase 读取数据的流程分析，并根据此流程介绍如何在客户端以及服务端优化性能，同时结合有赞线上 HBase 集群的实际应用情况，将理论和实践结合，希望能给读者带来启发。如文章有纰…

有赞技术
7年前
2.0k
17
评论

一文看懂YARN的资源调度

（1）MR程序提交到客户端所在的节点。（2）YarnRunner向ResourceManager申请一个Application。（3）RM将该应用程序的资源路径返回给YarnRunner。（4）该程序将运行所需资源提交到HDFS上。（5）程序资源提交完毕后，申请运行mr…

Peanut_li
5年前
642
点赞
评论

浅谈一个新人的大数据之路-HiveQL&Spark-SQL中谓词下推

在传统关系型数据库中，优化关系 SQL 查询的一项基本技术是，将外层查询块的 WHERE 子句中的谓词移入所包含的较低层查询块（例如视图），从而能够提早进行数据过滤以及有可能更好地利用索引。这在分区数据库环境中甚至更为重要，其原因在于，提早进行过滤有可能减少必须在数据库分区之…

CCCCCold丶kl
6年前
4.5k
4
评论

CGroups ：容器化的基石

CGroups 是 Linux 内核提供的一种限制进程所使用资源的机制，全称为 Control Groups , 使用者可以通过 CGroups 对进程所使用的cpu，内存等资源实现精细化的控制与限制，比如说可以限定某个进程的CPU使用数为1，内存使用量不超过1G，从而实现了进…

小灰灰啊
6年前
1.7k
4
评论