字节跳动青训营讲师非常用心给大家整理了课前、中、后的学习内容,同学们自我评估,选择性查漏补缺,便于大家更好的跟上讲师们的节奏,祝大家学习愉快,多多提问交流~
课程一:微服务框架 - 不变的基建
概述
本课程内容主要分为以下4个方面:
-
微服务架构介绍
- 微服务架构的背景由来、架构概览、基本要素
-
微服务架构原理及特征
- 微服务架构的基本组件、工作原理、流量特征
-
核心服务治理功能
- 核心的服务治理功能,包括流量治理、服务均衡、稳定性治理
-
字节跳动服务治理实践
- 字节跳动在微服务架构稳定性治理中,对请求重试策略的探索及实践
为了帮助大家更好地预习及理解本节课程,该学员手册列出了课前、课中、及课后这三个阶段所涉及到的专业内容大纲,其中课前部分供同学们提前预习参考,课中部分给出了课程大纲,帮助同学们整理思路,课后部分列出一些扩展性的问题让同学们进一步延伸思考。
课前
微服务架构介绍
-
系统架构的演进历史
- 单体架构
- 垂直应用架构
- 分布式架构
- SOA架构
- 微服务架构
-
微服务架构的三大要素
- 服务治理
- 可观测性
- 安全
微服务架构原理及特征
-
微服务架构中的基本概念及组件
- 服务、实例......
-
服务间通信
- RPC、HTTP
- 服务注册及服务发现
核心服务治理功能
-
服务发布
- 蓝绿部署
- 灰度发布(金丝雀发布)
- 流量治理
-
负载均衡
- Round Robin
- Ring Hash
- Random
-
稳定性治理
- 限流
- 熔断
- 过载保护
- 降级
字节跳动服务治理实践
- 请求重试的意义
- 请求重试的难点
课中
微服务架构介绍
系统架构的演进历史
-
单体架构
- All in one process
-
垂直应用架构
- 按照业务线垂直划分
-
分布式架构
- 抽出与业务无关的公共模块
-
SOA架构
- 面向服务
-
微服务架构
- 彻底的服务化
微服务架构概览
- 网关
- 服务配置和治理
- 链路追踪和监控
微服务架构的三大要素
-
服务治理(本课程内容)
- 服务注册
- 服务发现
- 负载均衡
- 扩缩容
- 流量治理
- 稳定性治理
-
可观测性
- 日志采集
- 日志分析
- 监控打点
- 监控大盘
- 异常报警
- 链路追踪
-
安全
- 身份验证
- 认证授权
- 访问令牌
- 审计
- 传输加密
- 黑产攻击
微服务架构原理及特征
微服务架构中的基本概念及组件
-
服务
- 一组具有相同逻辑的运行实体
-
实例
- 一个服务中的每个运行实体
-
实例与进程的关系
- 没有必然对应关系,一般一对一或者一对多
-
常见的实例承载形式
- 进程、VM、k8s pod......
服务间通信
- 微服务之间通过网络进行通信
- 常见的通信协议包括 HTTP、RPC
服务注册及服务发现
-
基本问题
- 服务间调用中,如何指定下游服务实例的地址?
-
简单方案
-
直接指定 ip:port?
- 没有任何动态能力
- 有多个实例下游实例怎么办?
-
使用 DNS?
- 本地 DNS 存在缓存,导致延迟
- DNS 没有负载均衡
- 不支持服务探活检查
- DNS 不能指定端口
-
-
服务注册发现
- 新增一个统一的服务注册中心,用于存储服务名到服务实例之间的映射关系
- 旧服务实例下线前,从服务注册中心删除该实例,下线流量
- 新服务实例上线后,在服务注册中心注册该实例,上线流量
-
微服务流量特征
- 统一网关入口
- 外网通信多数采用 HTTP,内网通信多数采用 RPC(Thrift, gRPC)
核心服务治理功能
服务发布
-
何为服务发布
- 让一个服务升级运行新的代码的过程
-
服务发布难点
- 服务不可用
- 服务抖动
- 服务回滚
-
蓝绿部署
- 将服务分成两个部分,分别先后发布
- 简单、稳定
- 但需要两倍资源
-
灰度发布(金丝雀发布)
- 先发布少部分实例,接着逐步增加发布比例
- 不需要增加资源
- 回滚难度大,基础设施要求高
流量治理
-
流量控制
- 在微服务架构中,可以从各个维度对端到端的流量在链路上进行精确控制
-
控制维度
- 地区维度
- 集群维度
- 实例维度
- 请求维度
负载均衡
- Round Robin
- Random
- Ring Hash
- Least Request
稳定性治理
-
限流
- 限制服务处理的最大 QPS,拒绝过多请求
-
熔断
- 中断请求路径,增加冷却时间从而让故障实例尝试恢复
-
过载保护
- 在负载高的实例中,主动拒绝一部分请求,防止实例被打挂
-
降级
- 服务处理能力不足时,拒绝低级别的请求,只响应线上高优请求
字节跳动服务治理实践
-
请求重试的意义
-
本地函数调用
- 通常没有重试意义
-
远程函数调用
- 网络抖动、下游负载高、下游机器宕机......
- 重试是有意义的,可以避免偶发性的错误,提高 SLA
-
重试的意义
- 降低错误率
- 降低长尾延时
- 容忍暂时性错误
- 避开下游故障实例
-
-
请求重试的难点
-
幂等性
- POST 请求可以重试吗?
-
重试风暴
- 随着调用链路的增加,重试次数呈指数级上升
-
超时设置
- 假设调用时间一共1s,经过多少时间开始重试?
-
-
重试策略
-
限制重试比例
- 设定一个重试比例阈值(例如 1%),重试次数占所有请求比例不超过该阈值
-
防止链路重试
- 返回特殊的 status code,表示“请求失败,但别重试”
-
Hedged Requests
- 对于可能超时(或延时高)的请求,重新向另一个下游实例发送一个相同的请求,并等待先到达的响应
-
-
重试效果验证
- 字节跳动重试组件能够极大限制重试发生的链路放大效应
课后
- 结合 CAP 等原理,思考微服务架构有哪些缺陷?
- 微服务是否拆分得越“微”越好?为什么?
- Service Mesh 这一架构是为了解决微服务架构的什么问题?
- 有没有可能有这样一种架构,从开发上线运维体验上是微服务,但实际运行又类似单体服务?
参考文献
课程二:【实践课】手把手教你做系统设计
手把手教你做系统设计之秒杀系统
概述
本节课程主要分为四个方面:
- 系统设计方法论
- 电商秒杀业务介绍
- 课程实践
- 课程总结
课前部分主要罗列课程中涉及到的中间件和相关背景知识。对于使用到的中间件,同学们需要体验了解概念,安装并正确使用。课中部分会详细讲解系统设计的方法论和秒杀系统实践,帮助同学们入门系统设计。课后部分会做一些总结,梳理核心思想和重点。
课前 (必须)
了解基本的电商概念和流程
- 电商平台业务
- 秒杀业务特点
MySQL
- 安装MySQL,推荐使用MySQL8及以上版本
- 熟悉ddl,dml等基础语法
- 了解sql优化
Redis
- 安装Redis,推荐最新版本
- 了解Redis的基本数据类型和使用场景
- 熟悉常用命令
- 了解Lua脚本的使用
- 了解Redis分布式锁
RocketMQ
- 安装RocketMQ,推荐最新版本
- 了解RocketMQ的基础概念和架构
- 了解MQ的使用场景
- 了解生产者如何保证消息的可靠性发送
- 了解消费者如何保证幂等
- 了解消费者pull和push模式的区别
OpenResty
- 安装OpenResty,推荐最新版本
- 了解Nginx的基础概念和使用
- 了解Lua脚本的语法
Linux
- 熟悉常用命令
- 熟悉进程和线程
- 了解Linux调优
Java
- 按照JDK,推荐JDK11
- 熟悉Java基础语法和lambda表达式
- 熟悉idea的使用
- 了解并发编程
- 了解springboot框架的使用
- 了解maven的使用
Jmeter
- 安装Jmeter
- 了解使用Jmeter压测
课中
引言
-
为什么要做系统设计
- 个人?
- 工作?
-
系统设计的概念是什么
-
如何做系统设计
- 4S分析法
-
如何分析系统瓶颈和优化
- 火焰图分析
- 链路分析
- 全链路压测
-
如何验证系统的可用性和稳定性
- 链路梳理
- 可观测性
- 全链路测试
- 稳定性控制
- 容灾演练
电商和秒杀
基本概念
- Spu
- Sku
- 秒杀业务的特点
秒杀的挑战
- 资源有限性
- 反欺诈
- 高性能
- 防止超卖
- 流量管控
- 扩展性
- 鲁棒性
设计秒杀系统
4S分析
- 场景
- 存储
- 功能
- 扩展
系统架构图
实践
秒杀流程
总结
高性能系统的通用设计思想
课后
- 秒杀课程的总结
- 秒杀系统的扩展
代码链接
链接: pan.baidu.com/s/1U4j4Nh1v… 提取码: 6493
课程三:黑灰产监控与防御
1、概述
企业的信息安全体系是非常庞大的,任何一个环节都可能会出现安全风险。其中,黑灰产是安全人员最为关注的一个风险来源,也是历年来导致企业和用户损失最大的因素。
如果某个平台或者业务被黑灰产盯上,可能是因为这个业务存在安全隐患被黑灰产利用,也可能只是被黑灰产当做牟利的垫脚石。对黑灰产的监控和防御,就是要了解他们的意图、手段和行为模式,避免被黑灰产攻击或者利用。
本次可能会给大家简单介绍国内黑灰产的情况,挑选了几种比较经典的黑产作弊手段进行详细分析,希望能帮助大家对黑灰产这个群体有一定的了解,提升各位的安全意识,在日后的工作和生活中,多一些安全角度的思考。
2、课前预习
本次课程偏科普性质,但内容不是大家在网络上可以随便看到的,课前可以阅读一些国内黑灰产的调研报告
推荐 Freebuf 黑镜调查系列 ,其中部分内容是讲师参与调查编写,不一定权威,但内容和数据都比较真实
3、思考
- 身边是否有一些事情是可能与黑产有关的,如何辨别?
- 你当前所学习和研究的技术,是否存在一些公开的安全问题,比如漏洞或者设计缺陷?如何避免他人利用这些问题来攻击你?
- 如果无法避免被攻击,如何将损失降低到最小?
4、相关阅读
关于业务风控
《风控要略 互联网业务反欺诈之路》讲师参与编写
《互联网平台智能风控实战》
关于安全攻防
《白帽子讲web安全》
《Web安全深度剖析》
《Web安全机器学习入门》
上述几本都是入门级的书,挑一本即可
《 SQL注入攻击与防御》数据库安全进阶
《 linux服务器安全攻防》 主机安全进阶
关于安全体系建设
《互联网企业安全高级指南》
《大型互联网企业安全架构》