双驱数据建模引擎在数据分析中的应用

184 阅读9分钟

双驱数据建模引擎在数据分析中的应用

直连和缓存数据模型在BI项目中的应用

历史数据和实时数据分析在项目中的处理机制

大数据BI分析需求中,经常会同时存在对大量历史数据进行分析和对时点数据进行实时分析的需求。这两种情况,所需要分析的数据体量和特点完全不同。分析历史数据的时候,需要对过去一段时间内的业务数据按照年、季度、月、周等时间范围分析,数据量可能上百万、千万甚至更多。而时点数据体量较小,但是实时性分析展示的要求高。因此,面对这两种场景,就需要使用抽取数据模型和直连数据模型的双驱数据建模引擎来处理,以更好的满足用户更多的数据分析场景,帮助用户更好的实现数据分析需求。

image.png 一、 抽取数据模型和直连数据模型的功能
抽取数据模型和直连数据模型功能比较多,具体大家可以参考以下两个链接进行了解;
抽取数据模型,顾名思义就是对原始数据库数据进行抽取,并进行建模,抽取的数据存储到本地的数据仓库,以获得更快的分析速度和性能表现。
抽取数据模型:gcdn.grapecity.com.cn/fo ... 6334…

直连数据模型,相当于在数据模型层形成一个查询语句,这个查询语句直接作用于用户数据源。直连数据模型一定是单数据连接的模型。
直连数据模型:gcdn.grapecity.com.cn/fo ... 6352…

1 .抽取数据模型和直连数据模型的本质
商业智能BI分析绕不开的问题就是数据模型应该怎么选择,数据的时效性应该怎么选,应该按照什么样的标准来进行选择。
其实本质上抽取数据模型和直连数据模型对应的就是数据的时效性问题;抽取数据模型相当于离线数据,直连数据模型相当于实时数据。
数据从业务产生数据到分析数据整个过程中需要进行一系列的清洗,加工处理过程,在这个过程中所带来的时间窗口大小就是数据的时效性,按照数据延迟大小可以分为离线数据和实时数据。\

image.png gcdn.grapecity.com.cn/showtopic-1…

1 .1 离线数据
离线数据一般是指T-1的日期,例如今天的日期T=2021-11-12,那么数据结果中,能够体现的业务数据只包括前一天的(昨日数据)。有人也称之为T+1的数据,把数据日期当作T,叫法不同,但本质都是指的今天处理的数据最新日期是截止昨天。
当然离线数据也可以是处理历史的数据,对历史的数据进行分析统计。

1 .2 实时数据
实时数据主要是指的数据延迟小,例如毫秒、秒、分钟级的延迟,小时级的延迟称之为“准实时数据“更为准确了。例如,你熬夜赶在双十一晚上的最后1分钟,成功付了尾款,在双十一实时统计大屏中,GMV的值又滚动了一下。

2 . 抽取数据模型和直连数据模型的技术差异
2 .1 抽取数据模型
抽取数据模型,在数据产生之后,不会立即对数据进行清洗,而是在固定的周期进行ETL,例如每天在凌晨12:00之后,处理前一天产生的数据,每月的最后一天,汇总本月产生的数据。
主要优点:

能够处理的数据量巨大,从企业成立以来的历史数据,都可以存储、计算处理、分析应用。

数据更准确,对于一些交易类的业务,存在订单状态流转,例如酒店,用户早上下了订单,但是下午有突发情况行程有变,取消了。在离线数据处理时,取当天订单成功状态,就不会计算在内。但对于数据漂移,即12点前下单,12点后取消的情况,就也无法统计到了,这种情形,在数据清洗任务处理时,可以采用全量更新的方式,每日更新全部数据,取最终的订单状态。

缺点:

抽取数据模型的缺点也很明显,因为抽取时间间隔,产生的业务数据不能立即分析,需要等到下次抽取完成之后才能使用。

2 .2 直连数据模型

直连数据模型是直接连着业务数据库,当业务系统产生新的数据之后,就会立即进行清洗处理。

主要优点:

 数据的时效性强,可以做到秒级或者毫秒级时延,所见即所得。

缺点:

 直连模型的性能主要依赖数据库服务器本身的性能,自助式分析性能会略差与抽取模型

3 .抽取数据模型和直连数据模型适用的场景是什么,该怎么选择?

数据应用场景总结起来其实就两个,数据分析和数据应用。

数据分析场景:

3 .1 业务经营分析,财务分析准确性大于时效性

对于这类数据分析的场景,更在意的是能够更加准确地反映业务表现情况,即使T+1天后才可以看到数据也可以接受。尤其是财务结算,一般是月度结算或者季度财报,准确性是第一位的,可以选择抽取数据模型。


3 .2 预警监控类分析,需要追求实时性

对于预警监控类分析场景,数据如果隔天才能看到,肯定是不行,例如系统宕机了,生产设备停机了,如果隔天数据分析才发现,那么带来的业务损失就无法挽回了。因此对于此类场景,需要对指标进行最小延迟的预警监控,选择直连数据模型。


4、数据应用场景:
4. 1 用户行为需要实时反馈

双十一交易信息分析,用户的每一笔下单交易都要能够实时的显示出来,此类场景就需要选择直连数据模型。

4.2 用户运营及营销场景

在用户运行或者用户营销类场景数据分析时,分析用户会员情况,流失用户召回情况等等,数据不是实时的对整体的影响不大,可以选择抽取数据模型


总的来说,在选择抽取模型和直连模型时,需要看具体的需求场景对数据的准确性,时效性的要求,来进行灵活的选择。以最小的资源成本来实现业务场景需求,而不是一味的追求实时数据分析,或者永远是历史数据分析。

二、抽 取数据模型

1、什么是抽取数据模型

顾名思义就是对原始数据库数据进行抽取,并进行建模,抽取的数据存储到本地的数据仓库,以获得更快的分析速度和性能表现。
Wyn Enterprise V5.0 Update1提供的抽取数据模型是一个ETL解决方案,通过可视化的数据建模引擎将各个不同业务系统的数据经过抽取、清洗转换之后存储到数据仓库。

image.png 2.抽取数据模型应用场景

在实际数据分析需求中,有一些场景不需要实时的数据分析,例如大公司的组织结构,员工信息等等,这些数据不需要每天缓存,也不需要查看实时的数据变化,那么这种场景就可以使用抽取数据模型。或者需要进行历史数据分析,历年的销售数据,同比环比计算等等;这种情况也适合使用抽取数据模型,可以给你更快速的分析体验。

  抽取数据模型支持产品数据源设计器中的所有数据源格式。因为需要进行抽取缓存,因此数据不是实时更新的,需要通过刷新计划进行数据同步。常用于实时性要求不高的历史数据分析。

image.png 抽取数据模型相比于以前版本的数据集,整体的原理和机制基本相差不大,但抽取数据模型比数据集更加强大,不仅支持宽表模型,同时支持星型模型,可以将本身无关联的业务数据,不同的业务系统数据进行抽取整合成一个模型,在仪表板分析和展示时进行使用。

image.png

三、直连数据模型

1、 什么是直连数据模型

直连数据模型,相当于在数据模型层形成一个查询语句,这个查询语句直接作用于用户数据源。直连数据模型一定是单数据连接的模型。

直连数据模型在数据分析时是基于直连模式,完全依赖于数据库自身的能力,可以满足数据实时刷新,常用于已有数据仓库和实时性要求较高的数据分析。

Wyn Enterprise在V5.0版本已经支持了直连数据模型,在V5.0 Update1版本又对该功能进行了进一步增强,支持的数据源类型更多,同时增加了JSON-API接口数据直连分析。

2.直连数据模型应用场景

直连数据模型主要的应用场景就是为了解决数据实时计算,实时展示的需求。所以所有需要实时查看数据信息的场景都可以使用直连数据模型。

例如:

电商买家搜索记录信息,浏览商品信息,下单订单信息;

服务器CPU,内存,磁盘IO的监控情况;

业务系统的应用日志信息;

生产制造过程中设备的健康状态,温湿度传感器数据,设备的缺料加工状态等等;

直连数据模型具体使用方式可以参考文档:help.grapecity.com.cn/pa ... ion?pageId=58721896。