规则引擎设计与实现 | 青训营笔记

145 阅读5分钟

这是我参与「第五届青训营 」笔记创作活动的第15天

内容来自字节第五届青训营录播课: 规则引擎的设计与实现.pptx【后端专场 学习资料三】第五届字节跳动青训营 - 掘金

一、本堂课重点内容:

  1. 理解规则引|擎的组成部分及应用场景
  2. 理解规则引擎的核心原理–编译原理的相关概念
  3. 设计并实现一个规则引擎一 YoungEngine
  4. 结合之前所学课程,实现一个Web版规则引擎(自行实现)

二、详细知识点介绍:

01. 认识规则引擎

探究规则引擎的由来、优点以及应用场景。简单了解规则引擎的组成和实现原理。

定义:

规则引擎是一种嵌入在应用程序中的组件,实现了将业务决策从应用程序代码中分离出来,并使用预定义的语义模块编写业务决策。接受数据输入,解释业务规则,并根据业务规则做出业务决策。

  • 解决开发人员重复编码的问题
  • 业务决策与服务本身解耦,提高服务的可维护性
  • 缩短开发路径,提高效率

组成部分:

  • 数据输入:支持接受使用预定义的语义编写的规则作为策略集。比如“price > 500"接受业务的数据作为执行过程中的参数,比如价格、标签等
  • 规则理解:能够按照预先定义的词法.语法、优先级、运算符等正确理解业务规则所表达的语义。
  • 规则执行:根据执行时输入的参数对策略集中的规则进行正确的解释和执行。同时对规则执行过程中的数据类型进行检查,确保执行结果正确

应用场景:风控对抗、活动策略运营、数据分析和清洗

02. 编译原理基本概念

程序员的三大浪漫之一:编译原理。介绍编译、词法分析、语法分析、抽象语法树等概念。

编译原理

  1. 理解:词法分析、语法分析
    • 词法分析:把源代码字符串转换为词法单元(Token)的这个过程
    • 吾法分析:在词法分析的基础上识别出表达式的语法结构
  2. 执行:抽象语法树
    • 表达式抽象语法结构的树状表示,对于一个表达式,抽象语法树一定时唯一确定的
  3. 输入输出:参数注入、类型检查
    • 类型检查:验证执行的结果是否为合适的数据类型。在抽象语法树中,通常会验证某节点的子节点的数据类型是否合法
    • 参数注入:在规则执行过程中,使用输入的参数值来计算语法树中的标识符节点值的过程

词法分析Lexical Analysis

词法分析就是把源代码字符串转换为词法单元(Token)的这个过程。

如何识别Token?——有限自动机(Finite-State Automaton)

有限自动机就是一个状态机,它的状态数量是有限的。该状态机在任何一个状态,基于输入的字符,都能做一个确定的状态转换。

语法分析Syntax Analysis

语法分析就是在词法分析的基础上,识别表达式的语法结构的过程

image.png

抽象语法树:表达式的语法结构可以用树来表示,其每个节点(子树)是一个语法单元,这个单元的构成规则就叫”语法”。每个节点还可以有下级节点。

image.png

抽象语法树Abstract Syntax Tree

上下文无关语法Context-Free Grammar

image.png

语言句子无需考虑上下文,就可以判断正确性。可以使用巴科斯范式(BNF)来表达

image.png

产生式:一个表达式可以由另外已知类型的表达式或者符号推导产生

  • 内置符号:字面量(string、bool、number)标识符、运算符
  • 一个基础表达式可以由常量(string、bool、number)或标识符(identifier)
  • 一个乘法表达式可以由基础表达式或者乘法表达式*基础表达式组成

递归下降算法Recursive Descent Parsing

递归下降算法就是自顶向下构造语法树。不断的对Token进行语法展开(下降),展开过程中可能会遇到递归的情况。

image.png

类型检查

  • 类型综合:根据子表达式的类型构造出父表达式的类型。例如,表达式A+B的类型是根据A和B的类型定义的
  • 编译时检查 & 运行时检查:类型检查可以发生在表达式的编译阶段,即在构造语法树的阶段;也可以发生在执行时的阶段
    • 编译时:需要提前声明参数的类型,在构建语法树过程中进行类型检查int1 : int; str1 : string
    • 执行时:可以根据执行时的参数输入的值类型,在执行过程中进行类型检查int1: 108; str1: "300"

03. 设计一个规则引擎

从零开始设计一个规则引擎YoungEngine,明确其对词法、语法的支持,设计编译和执行的流程。

设计目标

设计一个规则赐引擎,支持特定的词法、运算符、数据类型和优先级。并且支持基于以上预定义语法的规则表达式的编译和执行。

  • 词法(合法Token)
    • 参数:由字母数字下划线组成eg: _ab2、user_name
    • 布尔值:true 、false
    • 字符串: “ abcd”、'abcd'. abcd
    • 十进制int: 1234
    • 十进制float: 123.5
    • 预定义运算符:+―
  • 运算符
    • 一元运算符:+ -
    • 二元运算符: + - * / %> <>= <= == !=
    • 逻辑操作符:&& ll!
    • 括号:( )
  • 数据类型
    • 字符串
    • 布尔值
    • 十进制int
    • 十进制float

image.png

词法分析

  • 参数:由字母数字下划线组成eg: _ab2、user_name
  • 布尔值: true . false
  • 字符串: " abcd”、 'abcd'、abcd
  • 十进制int: 1234
  • 十进制float: 123.5
  • 一元运算符:+ -
  • 二元运算符: + - * / %><>= <=== !=
  • 逻辑操作符:&& ll!
  • 括号:()

涉及词法分析的状态机

image.png

语法分析

expr: logor EOF;
logor: logor‘ll’logAnd | logAnd;
logAnd: logAnd '&&’ logNot | logNot;
logNot: '!’logNot | cmp;
cmp: cmp 's' add | cmp '5=' add | cmp '<' add | cmp '<=' add | cmp 'e= ' add | cmp 'l=' add | add;add: add '+' mul | add '-' mul | mul;
mul: mul ‘*' pri | mul ' / ' pri | mul '%' pri / pri;
pri: BooleanLiteral|IntegerLiteral|FloatLiteral|StringLiteral| Identifierl ' ( 'expr') ';
  • 优先级的表达
type precedence struct {
    validSymbols   []Symbol     // 当前优先级支持的运算符类型
    nextPrecedence *precedence  //更高优先级的
    planner        planner      //当前优先级的处理函数
}
  • 语法树结构
    • 一元运算符:左子树为空,右子树为右操作数
    • 二元运算符:左子树为左操作数,右子树为右操作数括号:左子树为空,右子树为内部表达式的AST

语法树执行与类型检查

  • 语法树执行:预先定义好每种操作符的执行逻辑。对抽象语法树进行后续遍历执行,即:
    • 先执行左子树,得到左节点的值;
    • 再执行右子树,得到有节点的值;
    • 最后根据根节点的操作符执行得到根节点的值。
  • 类型检杳
    • 检查时机:执行时检查
    • 检查方法:在一个节点的左右子节点执行完成后,分别校验左右子节点的类型是否符合对应操作符的类型检查预设规则。
      • '>' 符号要求左右子节点的值都存在且为int或float
      • '!' 生符号要求左节点为空且右节点的值为bool

04. 规则引擎的实现

实战演练部分,实现规则引擎YoungEngine的各个部分,并介绍其中的几个重点实现思路。