Kindling-OriginX

Kindling-OriginX

Kindling-OriginX

Kindling-OriginX 故障根因推理引擎

等 1 人订阅共21篇文章创建于2024-01-18

在线业务的常见全栈故障种类与定位手段

常见故障分类与常规的分析定位手段应用程序故障代码缺陷导致应用崩溃或错误 ○ 案例:2023年双11期间,某汽车在线订单平台的Tomcat服务节点出现了严重的线程池耗尽问题。事发当天上午10点多,随

1年前
111
点赞
评论

在线业务的常见全栈故障种类与定位手段

Kindling-OriginX 在快手 Staging 环境的异常诊断效果分享

目的愿景：缩短对线上稳定性问题的定位时长，帮助业务快速止损，减轻日常问题排查的人力成本。 1.是否能在在公司落地，给实际的问题诊断带来帮助； 2.为问题诊断提供借鉴思路：通过ebpf采集系统层面指标

1年前
287
点赞
评论

Kindling-OriginX 在快手 Staging 环境的异常诊断效果分享

Kubernetes集群中如何利用北极星因果指标设置正确的POD规格——CPU篇

背景公众号之前翻译了一篇 Sysdig 的文章，Kubernetes 容量规划：如何合理设置集群资源介绍了如何设置合理的资源参数。虽然按照那篇文章设置可以有一定的帮助，但仍然可能存在风险。本文将详细

1年前
241
点赞
评论

Kubernetes集群中如何利用北极星因果指标设置正确的POD规格——CPU篇

Kubernetes 容量规划：如何合理设置集群资源

Kubernetes 容量规划是基础架构工程师面对的主要挑战之一，正确理解 Kubernetes 的资源要求和限制并非易事，这不仅需要对 Kubernetes 有深入的认识，同时要有足够的经验和丰富的

1年前
758
点赞
评论

Kubernetes 容量规划：如何合理设置集群资源

Originx创新解法——应用依赖故障篇

网络故障网络连接中断、延迟或丢包如果出现案例描述中的网络故障，需要安装专业的网络流量监控工具，并配备相关专业网络专家才能很好分析出问题。此外，网络监控的基线是非常难建立的，以丢包为例，出现丢包就应

1年前
144
点赞
评论

Originx创新解法——应用依赖故障篇

排障指标革命性新突破，北极星指标让故障无所遁形--北极星因果指标产品正式发布

传统排障方法的局限性传统故障排查的痛点在复杂的分布式系统中，故障排查一直是一个让人头疼的问题，其中机器宕机、进程存活、程序异常报错等故障相对而言比较好排查，有直接的指标能够反应出问题，难排查的问题

1年前
172
点赞
评论

排障指标革命性新突破，北极星指标让故障无所遁形--北极星因果指标产品正式发布

Originx的创新解法之：应用程序故障篇

Oringinx智能化实现全栈故障定位 Originx的设计目标是力争实现全栈故障种类的定位，自身的eBPF探针采集北极星排障指标，然后北极星排障指标引导到故障根因，Originx的核心工作原理请参考

1年前
79
点赞
评论

Originx的创新解法之：应用程序故障篇

解密北极星指标体系如何实现根因分析

为什么高效定位故障根因定位难排障过程本质是我们拿着程序最后的执行结果去猜测验证程序执行异常的过程当前人为定位故障主要依赖于指标告警，但是现在绝大多数指标反映的程序执行结果，并未对程序执行过程提供更

1年前
904
点赞
2

解密北极星指标体系如何实现根因分析

最佳实践：高并发之扩容思路

系统在业务平峰期间运行稳定、性能良好，但在大流量时就会出现各种各样的问题。扩容，通常指为了提高系统的处理能力，而采取的增加计算或其他资源的一系列措施，以此来提升系统的性能。

1年前
180
点赞
评论

最佳实践：深入理解线程池参数设置

什么是线程池线程池是一种管理和重用线程资源的机制，是利用池化思想设置和管理多线程的工具。本文将深入讲解 Java 线程池的调优方法和技巧，帮你提高编程技能和优化系统性能。

1年前
225
点赞
评论

最佳实践：深入理解线程池参数设置

标准化排障之路：内核行为可观测性应对标准化排障落地难题

标准化排障的意义排障流程的标准化是指将故障处理的各个环节规范化、流程化，以确保在面对系统或服务故障时，团队能够快速、有效地采取行动。同时能够最大限度减少因人员经验和技术水平差异导致的故障差异化问题

1年前
128
点赞
评论

标准化排障之路：内核行为可观测性应对标准化排障落地难题

最佳实践解读：互联网公司线上故障标准化排障流程

故障处理目标故障管理的目标是“尽快恢复服务到正常运行，并且最小化对业务运营的不利影响，从而尽可能地保证服务质量和可用性的水平”，即所谓的止血

1年前
467
1
评论

最佳实践解读：互联网公司线上故障标准化排障流程

标准化故障根因定位应该怎么做

为什么故障根因定位需要标准化标准化是提高工作效率和质量的基础。在故障根因定位中，标准化意味着建立一套统一的流程和方法，使得不同的人员在面对相同或类似问题时，能够按照既定的路径进行调查和分析。

1年前
231
点赞
评论

可观测性体系建设后，该如何挖掘数据及工具价值？

可观测性是近几年来最热门的话题之一，许多企业和团队都投入了很多人力、物力来进行可观测体系的建设，却在具体落地推广，乃至实际价值体现上都遇到了阻碍。

1年前
183
点赞
评论

可观测性体系建设后，该如何挖掘数据及工具价值？

运维痛点深度解析：当前排障流程的挑战与局限

本文将深度解析当前排障流程的挑战与局限，提出相应的解决思路，并对未来运维及可观测的发展趋势进行展望，以帮助企业和运维团队更好地应对复杂多变的运维环境，确保业务稳定、高效地运行。

1年前
395
点赞
评论

运维痛点深度解析：当前排障流程的挑战与局限

故障注入是检验可观测性建设成熟度的有效方法

本文讨论了可观测性建设的目标，同时提出对可观测性建设成熟度及质量的最直接的衡量方式就是评估有多少故障是通过可观测性工具发现甚至预防的。并介绍故障注入是检验建设成果的有效方法

1年前
146
点赞
评论

故障注入是检验可观测性建设成熟度的有效方法

Trace实践的常见挑战：客户端数据与服务器端时延不一致

链路追踪技术（Trace）扮演着至关重要的角色。它不仅帮助开发者监控和调试应用程序，还对性能优化提供了极大的支持。然而，在实际操作中，客户端与服务器端的数据时延不一致问题经常出现

1年前
267
点赞
评论

Trace实践的常见挑战：客户端数据与服务器端时延不一致

内核视角下持续剖析 VS 代码视角下的持续剖析

对于可观测性领域，AIOPS已经推广了很久，但是由于缺少一锤定音的数据特征，从而难以高准确率方式判定故障根因。

2年前
144
点赞
评论

内核视角下持续剖析 VS 代码视角下的持续剖析

Kindling-OriginX 使用指南：快速定位和解决接口延迟问题

传统方式接口响应慢常常是多种故障的最终故障表征之一，传统方式其排查方式往往以资源领域的思路展开，常见的排查点和方法包括以下几点。数据库检查数据库连接是否正常，可能是连接池配置不合理、数据库连接数

2年前
108
1
评论

Kindling-OriginX 使用指南：快速定位和解决接口延迟问题

磁盘故障！Demo环境全部宕机！

每一个微小的警告信号、每一个看似不起眼的小故障都可能是一场灾难的序曲。本文带大家一起回顾下这次看似由种种巧合因素导致的故障是如何发生的，又该如何去规避。

2年前
149
1
评论

磁盘故障！Demo环境全部宕机！