大数据驱动的编码理论与组合学方法
Speaker:葛根年 首都师范大学
1、背景与问题
- 大数据存储——分布式存储
- 大数据传输——网络编码
- 大数据计算——分布式计算
- 大数据隐私保护——隐私保护信息检索
2、分布式存储
Risk:即使是在分布式存储模式下,也需要担心某些存储节点损坏的问题
分布式存储系统主要依赖复制和纠删码来保证数据的可靠性和可用性。
利用极大似然的概念,比较丢失的数据与前后数据的高维距离来进行分类。
2007年,Dimakis对传统纠删码进行改进以减少修复失效节点的宽带消耗,提出了再生码的概念。
Cut-Set Bound
Wu等人,通过对Dimakis网络信息流图模型分析,求出了分布式存储系统中节点存储容量与修复带宽的理论下界(Cut-Set Bound)。
构造cut-set bound的再生码是现在的热点问题。
局部可修复码
极大可修复码
3、网络编码
如下的蝶形网络确实给我深度学习带来不小的启发。类似于我上次频谱分析,感觉是一种特征表示的方法。
网络编码研究的工具
4、编码缓存
5、索引编码
6、分布式计算
7、隐私保护
- 加密
- 统计手段(模糊)——差分隐私
8、一点点思考
拟阵是联系线性代数与图论的交叉,将代数投影到拓扑的领域- 可以确定的是,5G——6G的过程中必然需要聚合数据和传输
- 分布式计算“加冗余”的技术精髓,在于类似于代数的基底,相当于再去找一组基,也就是线性无关的一组向量。