正能量打字员

正能量打字员

正能量打字员

专注于可观测性和云计算，为了无法度量的价值。

等 1 人订阅共8篇文章创建于2023-07-13

大模型技术名词和概念太多了，一手学习笔记

本文作者是 Zenlayer 高级网络工程师钱工在第二届 CCF 夜莺开发者创新论坛上所做的分享的补充和展开。内容包括 AI 方向的一些实践效果、基础知识、选型思考等。

1年前
90
点赞
评论

故障快速恢复的方法和工具：阿里巴巴 1-5-10 实践

阿里巴巴提出的稳定性保障 "1-5-10" 目标是针对提升系统可靠性的一个重要牵引指标，用于缩短故障恢复时长（MTTR），降低故障影响。

1年前
937
点赞
评论

故障快速恢复的方法和工具：阿里巴巴 1-5-10 实践

Google SRE 的 on-call 方法和工具

Google SRE 实践中，有一个广为人知的理念：减少琐事，用软件工程的方式解决运维问题。Google SRE 设定了一个重要的、公开的目标：保持每个SRE的工作时间中琐事比例低于50%。

2年前
317
1
评论

坚持为「专业性」买单，就是最大的降本增效！

临近年底，各大互联网公司和云基础设施厂商，接连出了一些大故障，引发了众多的讨论：技术保障这个话题老套极了，但不幸的是，截止当前，技术保障仍然是一个人力密集 + 知识密集 + 资产密集同时存在的领域。

2年前
66
点赞
评论

坚持为「专业性」买单，就是最大的降本增效！

可观测性与传统监控的区别和联系

什么是可观测性，从传统监控到可观测性，Gap 到底有多大？构建和完善可观测性体系，有哪些最佳实践，应该从哪些维度入手和进阶

2年前
385
3
评论

稳定性保障8个锦囊，建议收藏！

稳定性保障，是一切技术工作的出发点和落脚点，也是 IT 工作最核心的价值体现，当然也是技术人员最容易“翻车”的阴沟。8个稳定性保障锦囊，分享给各位技术人员择机使用。

2年前
964
9
评论

面向故障处理的可观测性体系建设方法，全在这个长文中了

笔者从 12 年开始入行，从事 DevOps 研发工作，做过部署系统、监控系统、可观测性相关产品，也做过 SRE 一线和管理工作，对于可观测性的理解和实践，有一些小小的见解，利用本文和大家做一个探讨

2年前
180
2
评论

建设OnCall值班平台的方法，全在这个小册子里了

市面上有众多监控系统，刨去商业软件不说，开源的就有Nagios、Zabbix、Open-Falcon、Nightingale、Grafana、Prometheus、Elastalert 等，还有云厂商

2年前
505
1
评论