规则引擎的设计与实现 | 青训营笔记

47 阅读4分钟
  • 这是我参与「第五届青训营 」伴学笔记创作活动的第 6 天

1. 内容

  • 规则引擎
  • 编译原理基本概念

2. 知识点

2.1 认识规则引擎
  • 规则引擎定义

    规则引擎是一种嵌入在应用程序中的组件,实现了将业务决策从应用程序代码中分离出来,并使用预定义的语义模块编写业务决策。接受数据输入,解释业务规则,并根据业务规则做出业务决策。

  • 作用

    • 解决开发人员重复编码的问题
    • 业务决策与服务本身解耦,提高服务的可维护性
    • 缩短开发路径,提高效率
  • 组成部分

    1. 数据输入

      支持接受使用预定义的语义编写的规则作为策略集。比如price > 500,接受业务的数据作为执行过程中的参数,比如价格、标签等。

    2. 规则理解

      能够按照预定义的词法、语法、优先级、运算符等正确理解业务规则所表达的语义。

    3. 规则执行

      根据执行时输入的参数对策略集中的规则进行正确的解释和执行。同时对规则执行过程中的数据类型进行检查,确保执行结果正确。

  • 应用场景

    1. 风控对抗

      与黑灰产的对抗过程中,策略研发和产品需要能够根据黑灰产特征进行快速识别和对抗。

    2. 活动策略运营

      业务活动的运营需要及时根据用户效果反馈进行运营策略的优化和调整。

    3. 数据分析和清洗

      在数据分析系统中使用规则引擎可以便捷的实现对数据进行整理、清洗和转换。

2.2 编译原理基本概念
  1. 词法分析

    词法分析就是将源代码字符串转换为词法单元(Token)的过程。

    如何识别Token?

    有限自动机就是一个状态机,它的状态数量是有限的。该状态机在任何一个状态,基于输入的字符,都能做一个确定的状态转换。

  2. 语法分析

    语法分析就是在词法分析的基础上,识别表达式的语法结构的过程。

  3. 抽象语法树

    表达式的语法结构可以用树来表示,其每个节点(子树)是一个语法单元,这个单元的构成规则就叫“语法”。每个节点还可以有下级节点。

    • 上下文无关语法

      语言句子无需考虑上下文,就可以判断正确性。可以使用巴克斯范式(BNF)来表达。

      exp : add ;
      add : add '+' mul | mul ;                   // 加法表达式 a + b + c  a + b * c
      mul : mul '*' pri | pri ;                   // 乘法表达式 a * b * c
      pri : string | bool | number | identifer ;  // 基础表达式 weight | 20 | "abcde"
      

      产生式:一个表达式可以由另外一个已知类型的表达式或符号推导产生

    • 递归下降算法

      递归下降算法就是自顶而下构造语法树。不断地对Token进行语法展开(下降),展开过程中可能会遇到递归的情况。

  4. 参数注入

    在规则执行过程中,使用输入的参数值来计算语法树中的标识符节点值的过程。

  5. 类型检查

    验证执行的结果是否为合适的数据类型。在抽象语法树中,通常会验证某节点的子节点的数据类型是否合法。

    • 类型综合

      根据子表达式的类型构造出父表达式的类型。

    • 编译时检查和运行时检查

      类型检查可以发生在表达式的编译阶段,即在构造语法树的阶段,也可以发生在执行阶段。

      • 编译时:需要提前声明参数的类型,在构建语法树过程中进行类型检查
      • 执行时:可以根据执行时的参数输入的值的类型,在执行过程中进行类型检查
2.3 设计规则引擎
  • 设计目标

    设计一个规则引擎,支持特定的词法、运算符、数据类型和优先级。并且支持基于以上预定义语法的规则表达式的编译和运行。

    • 词法(合法Token)

      参数、布尔值、字符串、十进制int、十进制float、预定义运算符

    • 运算符

      一元运算符、二元运算符、逻辑操作符、括号

    • 数据类型

      字符串、布尔值、十进制int、十进制float

    • 优先级

      优先级运算符
      0``
      1&&
      2! - +
      3> >= < <= == !=
      4+ -
      5* /
      6( )
  • 词法分析

    参数、布尔值、字符串、十进制int、十进制float、一元运算符、二元运算符、逻辑操作符、括号

    • 设计词法分析的状态机
  • 语法分析

    expr : logOr EOF ;
    logOr : logOr '||' logAnd | logAnd ;
    logAnd : logAnd '&&' logNot | logNot ;
    logNot : '!' logNot | cmp ;
    cmp : cmp '>' add | cmp '>=' add | cmp '<' add | cmp '<=' add | cmp '==' add | cmp '!=' add | add ;
    add : add '+' mul | add '-' mul | mul ;
    mul : mul '*' pri | mul '/' pri | mul '%' pri | pri ;
    pri : BooleanLiteral | IntegerLiteral | FloatLiteral | StringLiteral | Identifier | '('expr')' ;
    
    • 优先级表达

      type precedence struct {
          validSymbols   []Symbol     // 当前优先级支持的运算符类型
          nextPrecedence *precedence  // 更高优先级的
          planner        planner      //当前优先级的处理函数
      }
      
    • 语法树结构

      一元运算符:左子树为空,右子树为右操作数

      二元运算符:左子树为左操作数,右子树为右操作数

      括号:左子树为空,右子树为内部表达式的AST

  • 语法树执行和类型检查

    • 语法树执行

      预先定义好每种操作符的执行逻辑

      对抽象语法树进行后序遍历执行

    • 类型检查

      检查时机:执行时检查

      检查方法:在一个节点的左右子节点执行完成后,分别校验左右子节点的类型是否符合对应操作符的类型检查预设规则

      • '>' 符号要求左右子节点的值都存在且为int或float
      • '!' 符号要求左节点为空且右节点的值为bool