《数据要素》课程复习

227 阅读7分钟

第一章 绪论:数据要素概论

背景和意义

  • 数据要素(data as a production factor)
    • 数据作为生产要素
    • 数字时代的数据,通劳动、土地、资本、等要素相同,作为生产要素
  • 背景:
    • 国家大数据产业蓬勃发展,数据已成为推动经济发展的重要力量
  • 数据驱动
    • 数智化
    • 新一轮 ai 浪潮是由数据驱动的
  • 数据带来新的科学研究方法(科学研究范式)
    1. 实证范式
    2. 理论范式
    3. 计算范式
    4. 数据范式(新增)
  • 传统范式 vs 第四范式
    • 传统范式
      • 提出假设猜想、搜集数据、通过计算验证
    • 第四范式
      • 先有大量已知数据、通过计算得出之前未知的理论
    • 放弃对因果关系的渴求,取而代之关注相关关系
  • 新的科技革命
    • 以人工智能为代表的新的科技革命
    • 技术倒逼科学发展
  • 数据如何要素化
    • 资源化
      • 原始数据获取、数据后期的加工处理
    • 资产化
      • 数据的资产属性在法律上确立,目前空白
    • 资本化
      • 使数据价值可以度量、可以交换、成为商品

数据要素的定义

  • 经济价值角度:被视为一种新的生产要素
  • 资源属性角度:是指在经济活动中,作为信息资源的数据
  • 法律和产权角度:被定义为数字资产
  • 技术层面角度:是指能为所有者带来经济效益、以电子方式记录的数据资源

DIKW模型

  • Dikw模型:是一个帮助理解数据如何转化为信息、知识和智慧的金字塔模型。
  • c10c2bdc3dc6c92e3e01642035fe7c1.png
  • Data(数据):基础的原始事实和数字
  • Information(信息):经过处理和阻止的数据,具有一定的意义
  • Knowledge(知识):通过经验和学习获得的信息,能够用于决策
  • Wisdom(智慧):在知识的基础上,结合经验和判断力,做出明智的决策

属性与特征

  • 数据的属性:
    • 可标识性
    • 可共享性
    • 生命周期性
    • 非竞争性(作为经济对象)
    • 潜在的非排他性(作为经济对象)
    • 异质性(作为经济对象)
    • 虚拟性(作为技术产物)
    • 低成本复制性(作为技术产物)
    • 可增值性
  • 数据要素的属性:
    • 非排他性
    • 非竞争性
    • 非稀缺性
    • 非耗竭性
  • 信息的属性
    • 可识别性
    • 可度量性
    • 可传递性
    • 可存储型
    • 可共享性

数据要素的价值

  • 数据要素成为数字经济时代的关键战略性资源
  • 创造价值的三种模式:
    • 价值倍增
    • 资源优化
    • 投入替代
  • 数据要素成为经济增长的重要动力
    • 提高资源配置效率
    • 创造新产业新模式
    • 实现对经济发展的倍增效应
  • 数据要素的价值实现路径
    • 一次价值:数据支撑业务贯通
    • 二次价值:数据推动数智决策
    • 三次价值:数据流动对外赋能
  • 工业制造领域的数据应用
    • 供应链管理优化
      • 通过整合供应链各环节的数据,实现供应链的透明化和协同化,降低成本,提高响应速度
    • 提升生产效率
      • 精准数据分析和预测,优化生产流程
  • 公共服务领域的数据应用
    • 智慧城市建设
    • 公共安全与健康

信息素养

  • 定义:
    • 是指个体在信息社会中获取、理解、评估和使用信息的能力
  • 信息素养四要素
    • 信息意识:前提
    • 信息知识:基础
    • 信息能力:核心
    • 信息道德:保证和准则
  • 信息素养核心能力:
    • 信息获取能力
    • 信息评估能力
    • 信息应用能力
    • 信息创新能力
  • 信息道德:
  • 遵守信息法律法规
  • 抵制不良信息
  • 批评与抵制不道德的信息行为
  • 不损害他人利益
  • 不随意发布信息

数据素养

  • 五个维度
    • 对数据的敏感性
    • 数据的收集能力
    • 数据的分析、处理能力
    • 利用数据进行决策的能力
    • 对数据的批判性思维

数据要素与信息素养

  • 数据作为信息素养实践的对象
  • 信息素养提升对数据处理的影响
  • 两者相互促进,共同推动数字化转型

数据要素相关技术

  • 数据采集与预处理技术
    • 数据采集:
      • 传感器技术、爬虫技术、API接口等
    • 数据预处理:
      • 清洗(去噪、去重)、转换(格式统一)、整合
    • 存储技术:
      • 关系型数据库、NoSQL数据库、分布式存储系统、云存储
    • 管理技术:
      • 数据仓库、数据湖数据治理、元数据管理
  • 数据分析与挖掘技术
    • 统计分析
    • 机器学习
    • 深度学习
    • 数据挖掘
  • 数据安全与隐私保护技术
    • 加密技术
    • 访问控制
    • 隐私保护技术
  • 数据交换与共享技术
    • 数据交换标准:JSON、XML、HL7等
    • 数据共享平台
    • 区块链技术

数据全生命周期管理

数据全生命周期

  • 定义:数据从生产到飞起的整个过程
    • 数据采集、数据传输、数据存储、数据处理、数据共享、数据销毁

数据采集

  • 数据源:直接数据、间接数据
  • 7f00a6738bc2550f88caa6d807a7a010.png
  • 数据分类:来源
    • 个人数据
    • 企业数据
    • 公共数据
  • 数据分类:组织
    • 结构化数据
    • 非结构化数据
    • 半结构化数据

数据预处理

  • 指原始数据进行清洗、转换和规范化,以提高数据质量、确保分析结果的准确性。
  • 目标:
    • 提高数据质量
      • 减少噪声和异常值
      • 确保数据一致性
      • 提升数据的可读性和可用性
    • 准备数据
    • 提高模型性能
  • 数据清洗
    • 去除重复数据
    • 处理缺失值
    • 异常值检测与处理
  • 数据变换
    • 规范化
    • 离散化
    • 属性构造

数据传输

  • 按照一定规程,通过一条或多条数据链路,将数据从数据源传输到数据终端
  • 数据传输的技术
    • 协议技术
    • 加密技术
    • 压缩技术

数据存储

  • 将数据以某种格式记录在一定的存储介质或存储系统中
  • 存储特点
    • 持久性
    • 可扩展性
    • 安全性
    • 高效性
  • 考虑因素
    • 存储类型的选择
    • 存储策略与管理
    • 数据备份与恢复
    • 存储环境的控制
    • 存储性能的优化
  • 数据存储类型:
    • 直接附加存储(DAS)
    • 网络附加存储(NAS)
    • 存储区域网络(SAN)
    • 云存储(是一种服务)

数据交换与共享

  • 是指数字在组织内部或跨组织便捷进行交互和使用的过程
    • 目的:提升数据分析的广度和深度,促进知识共享和协同创新
    • 过程:数据通过特定的共享平台或机制,被不同的用户或系统访问和使用
    • 安全措施:要实施严格的访问控制
    • 合规性:应当遵守相关法律法规和行业标准,确保数据流动的合法性和合规性
  • 特点与优势:
    • 加强协作
    • 提高效率
    • 促进创新
  • 实现方式:
    • 建立统一的数据共享机制
    • 采用数据共享平台

数据交换

  • 是指数据在组织内部各系统直接按或跨组织边界进行传递和整合的过程
  • 步骤:
    1. 数据准备
    2. 传输协议
    3. 交换执行
    4. 验证与接收
    5. 安全措施
  • 特点与优势
    • 实现数据互通
    • 支持业务流程
    • 提高数据质量
  • 实现方式
    • 文件传输
    • API接口
    • 数据集成工具

数据处理

  • 步骤
    • 数据准备
    • 计算和分析
    • 解释和应用