阅读 170

联邦学习原理-中篇

纵向联邦学习需求建模场景

金融科技-小微企业信贷的风险管理

痛点

理想很丰满,现实很骨感

银行期望得到密集和全面的企业及其控制人相关信息
但实际上银行通常只有央行征信报告

所以对客户缺乏全面了解并且数据分布严重倾斜
复制代码

基于联邦学习的解决方案

银行和票据公司合作
通过对近3/6个月的开票金额、央行征信分等标签属性进行联合建模,预测是否预期
复制代码

保险科技-个性化定价

痛点

  • 保险公司丰满的理想

    • 具有精准个性化用户画像(几百维)
    • 数据覆盖全面
  • 保险公司骨干的现实

    • 对客户缺乏全面了解
    • 数据分布严重倾斜

基于纵向联邦进行保险个性化定价

通过对年龄、职业、年租车次等标签属性进行联邦学习建模,预测出险概率,决策是否出险
复制代码

横向联邦学习需求建模场景

微众和合作行共建反洗钱模型,期望优化反洗钱模型
复制代码

设定

  • Y 表示是否存在洗钱行为
  • 合作行和微众都有(X,Y)
  • 双方不暴露自己的(X,Y)

传统建模方法问题

微众和合作行各自样本不够多
复制代码

期望结果

  • 保护隐私的条件下,建立联合模型
  • 联合模型效果超过单边数据建模

横向联邦学习

特点

  • 各个参与者拥有的数据特征相同(包括数据标签)
传统的以表格的方式查看数据库
横向的按行对数据分组
每行数据包含的数据特征相同
复制代码
  • 参与者不需要交换信息
  • 有FedAvg算法
  • 对深度学习(深度神经网络)有很好的支持

横向联邦应用场景

安防领域

不同地方的视觉业务:行人检测、出行检测、区域检测、设备异常检测、安全帽检测、火焰检测、烟雾检测
复制代码

痛点

  • 标签数量少
  • 数据分散,集中管理成本高
  • 离散延迟的模型更新和反馈

联邦学习解决方案

  • 在线模型更新和反馈
  • 无需集中上传数据
  • 数据保护,隐私性高
  • 相对于本地建模进一步提升算法准确率
  • 形成网络效应,将低长尾应用成本,提升视觉业务总体利润率

横向联邦解决医疗大数据

痛点

  • 医疗数据高度隐私,数据维护方对患者数据管理严格,使用严谨
  • 数据分散,单一组织缺乏足够多的可用样本

天然适合医疗大数据场景

  • 数据安全共享机制,有效保护用户隐私
  • 安全连接分散的数据源,共建数据模型
  • 安全联合建模效果几乎无损

多机构联合脑卒中预测

联邦学习建立脑卒中患病概率预测模型

  • 三家三甲医院+两家小医院
  • 患病住院流程数据和体征数据

效果

  • 基于联邦学习的联合建模效果优于任意一家医院数据独立建模效果
  • 联邦学习训练所得模型效果与集中数据训练所得模型效果差异甚微

每家医院样本情况

每家医院单独计算、集中所有数据计算、联邦计算 AUC结果比较

Epoch:使用训练集中的全部数据对模型进行一次完整的训练 被称为一代训练
类似的概念:
Batch:使用训练集中的一小部分样本对模型权重进行一次反向传播的参数更新,这一小部分样本被称为一批数据
Iteration:使用一个Batch的数据对模型进行一次参数更新的过程 被称为一次训练
复制代码

FATE

  • 工业级联邦学习系统
  • 有效帮助多个机构在符合数据安全和政府法规前提下,进行数据使用和联合建模

设计原则

  • 支持多种主流算法:机器学习、深度学习、迁移学习提供高性能联邦学习机制
  • 支持多种多方安全计算协议:同态加密、秘密共享、哈希散列等
  • 友好的跨域交互管理方案,解决了联邦学习信息安全审计难题

技术架构

Federated ML

联邦学习算法:联邦特征工程、联邦统计、联邦LR、GBDT、DNN
复制代码

Fate-Board

联邦建模可视化:
a、联邦建模任务生命周期过程可视化
b、联邦模型可视化,评估报告可视化
复制代码

Fate-Flow

端到端的联邦建模Pipeline调度
a、联邦建模多任务调度
b、容错和自动错误恢复
复制代码

Fate-Serving

生产环境在线推理服务

a、模型在线预测能力
b、在线模型管理能力
复制代码

Fate-Cloud Manager

数据合作网格搭建基础管理设施
多方进行联合
复制代码

KubeFate

云原生技术管理 Fate Workload
让Fate快速部署在K8S上
复制代码

端到端联邦建模Pipeline调度和管理

DAG定义联邦学习Pipeline

  • 多方非对称Pipeline DAG
  • 通用JSON格式DAG DSL、DSL Parser

联邦任务协同调度

  • 多方任务队列
  • 分发任务
  • 状态同步等协同调度

联邦模型管理

  • 联邦模型存取、一致性、版本、发布管理

联邦任务生命周期管理

  • 多方启停、状态检测

联邦状态输入输出实时追踪

  • 数据、模型、自定义指标日志等实时记录存储

联邦建模Pipeline调度和管理

Fate-Serving :高性能联邦在线推理服务

帮助客户解决模型部署复杂、手工扩展资源效率低下的问题
复制代码
  • 高性能、基于GRPC协议,批量联邦请求,联邦参与方模型结果多级缓存
  • 高可用,无状态设计,异常降级功能
  • 高弹性,模型&数据处理App动态加载

架构图

文章分类
人工智能
文章标签