首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
智能运维
订阅
三文鱼867
更多收藏集
微信扫码分享
微信
新浪微博
QQ
10篇文章 · 0订阅
9k Star! 一款灵活、强大、易用的开源运维平台——Spug
应用简览 Spug是面向中小型企业设计的轻量级无Agent的自动化运维平台,整合了主机管理、主机批量执行、主机在线终端、应用发布部署、在线任务计划、配置中心、监控、报警等一系列功能。 主要功能 批量执
开源推荐|简洁且强大的开源堡垒机OneTerm
在运维的日常工作中,登陆服务器操作不可避免,为了更安全的管控服务器,但凡有点规模的公司都会上线堡垒机系统,堡垒机能够做到事前授权、事中监控、事后审计,同时也可以满足等保合规要求。提到堡垒机,大伙第一时
作者把他写了3年的软件,给开源了!
最近,GitHub上又一款热度很高的开源项目冲进了开发者们的视野。 项目开源不到一个月,现如今就已经收获了15000+的Star标星。 这就是最近非常火热的“顶流” Web OS,名为Puter! 作
在 Ali Kubernetes 系统中,我们这样实践混沌工程
在传统的软件测试中,我们通常通过一个给定的条件来判断系统的反馈,通过断言来判断是否符合预期,测试条件和结果通常比较明确和固定。而混沌工程,是通过注入一些“不确定”因素,象放进了一群淘气的猴子,在系统资源、可用性、安全性、延迟、压力等方面进行捣乱,而此过程中,要求系统可以毫无影响…
阿里如何做到百万量级硬件故障自愈?
随着阿里大数据产品业务的增长,服务器数量不断增多,IT运维压力也成比例增大。各种软、硬件故障而造成的业务中断,成为稳定性影响的重要因素之一。本文详细解读阿里如何实现硬件故障预测、服务器自动下线、服务自愈以及集群的自平衡重建,真正在影响业务之前实现硬件故障自动闭环策略,对于常见的…
虎牙直播运维负责人张观石 | 解密SRE的六种能力及虎牙运维实践
张观石,拥有10余年网站开发、架构、运维经验;目前关注互联网服务可靠性系统工程、运维平台的规划建设、网站高可用架构等方面;在音视频传输质量评估、微服务运维方面积累了丰富的经验。 虎牙直播是以游戏为主要内容,涵盖娱乐、综艺、教育、户外、体育等多种内容的直播平台,2018年5月在纽…
【如何提高IT运维效率】深度解读京东云基于NLP的运维日志异常检测AIOps落地实践
日志在 IT 行业中被广泛使用,日志的异常检测对于识别系统的运行状态至关重要。解决这一问题的传统方法需要复杂的基于规则的有监督方法和大量的人工时间成本。
智能运维(AIOps)实践|日志语义异常检测全面解读
云智慧智能研究院着眼于运维人员在日志分析方面所面临的问题与实际需求,以日志语义异常检测为切入点,进行了相关的分析与实验。对在智能运维中如何进行日志分析,给出了基于日志语义异常检测的答案。
2023年大数据场景智能运维实践总结
本文将探讨在大数据场景下,通过DataOps和AIOps的结合,建设符合业务需要的智能运维平台,以满足大数据产品在自动化、智能化运维方面的诉求。
结合场景,快速了解智能运维算法体系核心知识
本文内容来自云智慧智能研究院的Bowen与Kappa从场景、算法、实践的角度为智能运维行业挖掘了一条算法体系建设的清晰路径。