这是我参与「第五届青训营 」伴学笔记创作活动的第 13 天
简单总结一下规则引擎的由来、优点以及应用场景。简单了解规则引擎的组成和实现原理。
另外对编译原理、词法分析、语法分析、抽象语法树也特别好奇,顺便总结一下。
认识规则引擎
什么是规则引擎
规则引擎是一种嵌入在应用程序中的组件,实现了将业务决策从应用程序代码中分离出来,并使用预定义的语义模块编写业务决策。接受数据输入,解释业务规则,并根据业务规则做出业务决策。
作用
解决开发人员重复编码的问题、业务决策与服务本身解耦,提高服务的可维护性、缩短开发路径,提高效率。
规则引擎的组成
-
- 数据输入
支持接受使用预定义的语义编写的规则作为策略集。比如"price > 500"
接受业务的数据作为执行过程中的参数,比如价格、标签等
-
- 规则理解
能够按照预先定义的词法、语法、优先级、运算符等正确理解业务规则所表达的语义
-
- 规则执行
根据执行时输入的参数对策略集中的规则进行正确的解释和执行。同时对规则执行过程中的数据类型进行检查,确保执行结果正确。
规则引擎的应用场景
-
- 风控对抗
与黑灰产的对抗过程中,策略研发和产品需要能够根据黑灰产特征进行快速识别和对抗。规则引擎作为风控系统的核心,使产研人员能够不断的调整和优化对抗策略,以实现最好的风控识别效果。
-
- 活动策略运营
业务活动的运营需要及时根据用户效果反馈进行运营策略的优化和调整。引入规则引擎后,可以将服务代码与业务运营逻辑解耦,提高运营策略的迭代效率。方便新玩法的探索和效果验证。
-
- 数据分析和清洗
在数据分析系统中使用规则引擎可以便捷的实现对数据进行整理、清洗和转换。数据分析师可以根据不同的需求来自定义数据处理的规则,方便快捷的产出所需要的数据。
编译原理基本概念
规则引擎编译原理
- 理解
- 词法分析、语法分析
- 词法分析: 把源代码字符串转换为词法单元(Token)的这个过程;
- 语法分析: 在词法分析的基础上识别出表达式的语法结构。
- 执行
- 抽象语法树
- 表达式抽象语法结构的树状表示,对于一个表达式,抽象语法树一定是唯一确定的。
- 输入输出
- 参数注入、类型检查
- 类型检查: 验证执行的结果是否为合适的数据类型。在抽象语法树中,通常会验证某节点的子节点的数据类型是否合法;
- 参数注入: 在规则执行过程中,使用输入的参数值来计算语法树中的标识符节点值的过程。
词法分析 Lexical Analysis
从上面的定义可以看出:词法分析: 把源代码字符串转换为词法单元(Token)的这个过程;
- **如何识别 Token **
- 有限自动机(Finite-State Automation)
- 有限自动机就是一个状态机,它的状态数量是有限的。该状态机在任何一个状态,基于输入的字符,都能做一个确定的状态转换。
语法分析 Syntax Analysis
接上面的介绍语法分析就是在词法分析的基础上,识别出表达式的语法结构。
啥是表达式的语法结构?
- 表达式的语法结构可以用树来表示,其每个节点(子树)是一个语法单元,这个单元的构成规则就叫"语法"。每个节点还可以有下级节点。
接下来看抽象语法树。
抽象语法树 Abstract Syntax Tree
主要分为两种:上下文无关语法、递归下降算法。
上下文无关语法
-
语言句子无需考虑上下文,就可以判断正确性。可以使用巴科斯范式(BNF)来表达。
-
产生式:一个表达式可以由另外已知类型的表达式或者符号推导产生。
- 内置符号: 字面量(string、bool、number)标识符、运算符。
- 一个基础表达式可以由 常量(string、bool、number) 或 标识符(identifier)。
- 一个乘法表达式可以由 基础表达式 或者 乘法表达式 * 表达式 组成。
递归下降算法
递归下降算法就是自顶向下构造语法树。
不断的对 Token 进行语法展开(下降),展开过程中可能会遇到递归的情况。
类型检查
类型综合
根据子表达式的类型构造出父表达式的类型,例如,表达式 A+B 的类型是根据 A 和 B 的类型定义的。
编译时检查 & 运行时检查
类型检查可以发生在表达式的编译阶段,即在构造语法树的阶段,也可以发生在执行时的阶段。
-
编译时: 需要提前声明参数的类型,在构建语法树过程中进行类型检查。
-
执行时: 可以根据执行时的参数输入的值类型,在执行过程中进行类型检查。
设计一个规则引擎
接下来让我们看一下如何设计一个规则引擎、以及设计规则引擎应该注意哪些问题。
设计目标
设计一个规则引擎,支持特定的词法、运算符、数据类型和优先级。并且支持基于以上预定义语法的规则表达式的编译和执行。
词法(合法 Token)
- 参数: 由字母数字下划线组成 eg: _ab2、user_name
- 布尔值: true 、false
- 字符串:"abcd"、'abcd'、‘abcd‘
- 十进制int: 1234
- 十进制foat: 123.5
- 预定义运算符:+
数据类型
- 字符串
- 布尔值
- 十进制int
- 十进制float
运算符
- 一元运算符:+ -
- 二元运算符:+ - * / % > < >= <= == !=
- 逻辑操作符: && || !
- 括号: ( )
词法和语法
优先级与语法树
语法树执行与类型检查
-
- 语法树执行
预先定义好每种操作符的执行逻辑。
对抽象语法树进行后续遍历执行,即
-
先执行左子树,得到左节点的值;
-
再执行右子树,得到有节点的值;
-
最后根据根节点的操作符执行得到根节点的值。
-
- 类型检查
检查时机: 执行时检查
检查方法:在一个节点的左右子节点执行完成后,分别校验左右子节点的类型是否符合对应操作符的类型检查预设规则。
- '>' 符号要求左右子节点的值都存在且为 int或float
- '!'符号要求左节点为空且右节点的值为 bool