首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Ericinfra
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
7
文章 7
沸点 0
赞
7
返回
|
搜索文章
Ericinfra
1月前
关注
新一期播客上线 🎙️
【英语特训】代码之外·运维英语 EP02: 边操作边解释 排查问题时旁边站着外国同事,命令敲得飞快,嘴巴却跟不上? 本期教你: ✅ 开始操作前怎么说 ✅ 正在操作时怎么解释...
1
评论
分享
Ericinfra
1月前
关注
某微服务架构电商平台 问题:用户下单失败率飙升
【实战案例】 案例:某微服务架构电商平台 问题:用户下单失败率飙升 传统方法:检查10+个服务,耗时45分钟 AI根因分析:直接定位到支付网关连接池泄露(3分钟) 节省MT...
1
评论
分享
Ericinfra
1月前
关注
动态阈值:让告警系统具备自我学习能力的深度实践
凌晨2点,运维工程师小刘的手机再次响起刺耳的告警铃声。这已经是本周第16次深夜告警了。他疲惫地打开监控平台,发现CPU使用率达到了85%——触发了固定阈值80%的告警规则。...
1
评论
分享
Ericinfra
1月前
关注
3步实现智能日志异常分类,减少80%排查时间
3步实现智能日志异常分类,减少80%排查时间 首先,对原始日志数据进行预处理和结构化解析。将半结构化的日志消息转换为模板形式,去除变量部分(如时间戳、数字或随机ID),保留...
1
评论
分享
Ericinfra
1月前
关注
用孤立森林算法提前1小时预测服务器宕机
【痛点场景】 运维团队通常面临一个棘手的问题:服务器宕机通常会发生在深夜,且宕机发生时往往已经没有时间进行干预。尤其是在高并发的电商平台或金融系统中,宕机会导致长时间的业务...
1
评论
分享
Ericinfra
1月前
关注
运维人的英语自救指南(一):如何用英语介绍你的工作
痛点 外国同事问你"What do you do here?" 你说:"I'm an ops engineer." 然后...就没有然后了。 尴尬的沉默。 解决方案 做了个...
1
评论
分享
Ericinfra
3月前
关注
50台A100 GPU集群管理实战指南
[50台A100 GPU集群管理实战指南] 我如何管理50台A100 GPU集群:从混乱到有序的实战指南...
1
评论
分享
个人成就
文章被点赞
7
文章被阅读
311
掘力值
93
关注了
0
关注者
0
收藏集
0
关注标签
4
加入于
2022-05-28