大数据概念
只要可以获取和存储的信息都是数据。
语言、文字、图形图画、印象记录 所有感官可以察觉到的事物,只要能被记下来,能够查询到,就都是数据(data)。 一切能被计算机记录下来的都叫数据。
1E = 1024p 1z=1024e 1y=1024z 1b=1024y 1n=1024b 1d=1024n
普通的数据库存数据存不下,不得不提出新的技术,跨主机的存储。
对海量的数据进行存储和分析。
大数据特点: 大 多 值 快 信
大 数据体量大
多 种类和来源多样化 结构化 半结构化 和 非结构化 常见的来源有:网络日志 音频 视频 图片
值 大数据 价值密度较低,大海捞针。信息海量,但价值密度较低,存在大量不相关信息。
快 大数据处理 离线处理 (处理历史数据)在线实时分析 要求速度快
信 数据的准确性和可信赖度,数据的质量。
大数据应用场景
电商方面 购买此商品的人还购买了什么商品
传媒领域 猜你喜欢(每天不重复的推荐)
金融领域 通过信用评估,风险承担能力评估 用户画像-运营优化-风险管控-精准营销-业务创新
交通方面 对车流量等海量数据的收集,估算,预算该段路车流量情况。
电信方面 调节自身业务结构,做到按需分配 位置 用户画像
安防方面 通过人脸识别 匹配 存储用户数据,结合人工智能,分别及甄别用户行为。
医疗方面 通过海量病例大数据的存储,匹配、检索、结合用户的饮食、行为等习惯,搭建只会医疗体系 收集红细胞,淋巴 细胞 分析个人体脂
大数据的分析基本步骤:
明确分析的目的和思路-收集数据-数据处理-数据分析-数据展现-报告撰写
数据收集:一手数据和二手数据 (经过加工整理的数据) 数据的清洗,数据转化、数据提取、数据计算 不干净的数据变成更干净的数据
大数据部门的组织结构:
平台组 大数据平台环境搭建 集群性能监控 集群性能调优
数据仓储组 ETL工程师 Hive工程师-数仓建模和数据分析
数据挖掘组 算法工程师 推荐系统工程师 用户画像工程师
报表开发组 javaEE工程师