大数据是啥?

228 阅读2分钟

大数据概念

只要可以获取和存储的信息都是数据。

语言、文字、图形图画、印象记录 所有感官可以察觉到的事物,只要能被记下来,能够查询到,就都是数据(data)。 一切能被计算机记录下来的都叫数据。

1E = 1024p 1z=1024e 1y=1024z 1b=1024y 1n=1024b 1d=1024n

普通的数据库存数据存不下,不得不提出新的技术,跨主机的存储。

对海量的数据进行存储和分析。

大数据特点: 大 多 值 快 信

大 数据体量大

多 种类和来源多样化 结构化 半结构化 和 非结构化 常见的来源有:网络日志 音频 视频 图片

值 大数据 价值密度较低,大海捞针。信息海量,但价值密度较低,存在大量不相关信息。

快 大数据处理 离线处理 (处理历史数据)在线实时分析 要求速度快

信 数据的准确性和可信赖度,数据的质量。

大数据应用场景

电商方面 购买此商品的人还购买了什么商品

传媒领域 猜你喜欢(每天不重复的推荐)

金融领域 通过信用评估,风险承担能力评估 用户画像-运营优化-风险管控-精准营销-业务创新

交通方面 对车流量等海量数据的收集,估算,预算该段路车流量情况。

电信方面 调节自身业务结构,做到按需分配 位置 用户画像

安防方面 通过人脸识别 匹配 存储用户数据,结合人工智能,分别及甄别用户行为。

医疗方面 通过海量病例大数据的存储,匹配、检索、结合用户的饮食、行为等习惯,搭建只会医疗体系 收集红细胞,淋巴 细胞 分析个人体脂

大数据的分析基本步骤:

明确分析的目的和思路-收集数据-数据处理-数据分析-数据展现-报告撰写

数据收集:一手数据和二手数据 (经过加工整理的数据) 数据的清洗,数据转化、数据提取、数据计算 不干净的数据变成更干净的数据

大数据部门的组织结构

平台组 大数据平台环境搭建 集群性能监控 集群性能调优

数据仓储组 ETL工程师 Hive工程师-数仓建模和数据分析

数据挖掘组 算法工程师 推荐系统工程师 用户画像工程师

报表开发组 javaEE工程师