我们是谁?
我们是阿里云基础SRE团队,负责管理阿里云上百万服务器、数十万网络设备、全球70座主要数据中心。我们是天猫、淘宝、外部上云的各行各业的基石。我们采用数字化、数据化、智能化的手段来提升海量设备的运维效率和稳定性。
在监控方面,我们通过部署IoT采集设备读取数据中心的温湿度,电力,资产等数据,并通过bim可视化技术将数据和硬件关联,便于快速查找问题;通过在每台服务器和交换机里部署agent,我们采集了PB级的性能,功耗,各类错误日志信息,并对其进行实时分析诊断,及时告警和触发自动化修复。
在运维方面,我们可以不到现场,就对各类硬件设备进行操作,比如通过机器人对已经损坏的配件进行远程更换,对服务器和交换机进行软修复等。
在智能化方面,我们实现了对故障的预测、对未来采购需求的预测、对能耗的预测等,从而进一步服务好客户。
在创新方面,我们自研了浸没式液冷服务器,建设了全国能耗最低的数据中心,通过集成平头哥含光或国产ARM芯片打造自研服务器,自研交换机,自研电源设备,通过扩展AI算力设备基于RDMA互联实现高性能AI计算,大幅加速AI训练和推理,最后也是最重要的,就是打造一套与硬件设备完美匹配的软件系统,实现软硬一体高效应用。
我们最终的愿景是在将来能打造一朵完全无人值守的云!
招聘岗位
- Java开发工程师
- go开发工程师
- c++开发工程师
- 算法工程师
- 云平台产品经理
工作地点
杭州
招聘时间
2021.3-2021.4
招聘方式
- 微信加群,见下方二维码
- 简历邮箱:wenxu.yk@alibaba-inc.com 或 yuesheng.wzx@alibaba-inc.com (发邮件注明来自掘金)
- 收到简历,2个工作日内安排面试
- 拿到offer的同学,今年暑假可以实习,通过转正答辩后可以直接拿到正式offer。不实习的同学,在秋招可以直通终面,一般拿offer没太大问题