又到了一年一度的这个时候,数据工程、机器学习和数据运营的领导者、顾问和供应商们回顾过去的事件,检查趋势并进行预测。在2022年的风云变幻之后,这次任务可不容易。
总体而言,2023年的主要数据演进将围绕以下内容展开:
-
随着业务的增长和演变,减少数据生产者和数据消费者之间的瓶颈。
-
重新定义治理以更好地管理数据和机器学习模型。这将与数据运营(DataOps)相结合。
-
数据质量将开始受到应有的关注,因为它对组织的数据可靠性和信任以及机器学习的成功至关重要。
有了这些概念作为基础,让我们深入探讨数据未来的预测:
1、数据工程将成为主流
在过去的一年中,多个数据项目受到了糟糕的数据建模、基础设施问题、对数据工程团队的压倒性请求以及由业务/数据分析师创建的多个数据孤岛的影响,以纠正他们需要处理的数据。这使得企业认识到,如果没有良好的数据工程计划,其他所有事项都将难以成功。
2、注重数据质量而不仅仅是数据量
过去,企业更关注收集更多的数据,而不确保其质量是否合适。确保源头的数据质量可能是在组织中实现成功数据使用的最佳途径。
3、将产品思维应用于数据和机器学习
所有数据专业人员都已经看到过过时的表格、流水线或仪表板,或者只是被遗弃。通过将数据视为产品,用户和业务成为开发的中心。数据团队需要确保数据产品能够解决特定的问题,评估用户参与度,确保产品的进展和维护,并评估用户是否有足够的知识来充分利用这项技术。
4、数据合约开始引起关注
内部系统生成的数据通常通过CDC(变更数据捕获)进入数据数据仓库。然而,负责这些系统的软件工程师通常对由数据工程师构建在CDC过程之上的数据依赖关系一无所知。因此,当他们更新服务导致模式变更时,数据系统会崩溃。
数据合约正在被实施以强制执行数据模式、所需的数据访问级别、数据所有权、正在提取的数据、匿名化和其他可能受到源头更改影响的系统。
5、分布式和面向领域的数据架构
数据湖将从单体架构发展为面向领域的数据网格,就像应用架构从单体架构发展为面向领域的微服务一样。
6、数据团队中出现新的角色
我们将开始招聘数据产品经理来推动采用和货币化,以及DataOps工程师来专注于治理和效率。
7、笔记本电脑有望成为新的Excel
越来越多的业务用户熟悉Python、SQL和R。编写小型代码脚本不再像10年前那样可怕。快速从数据库中提取数据或使用Streamlit创建简单应用程序的能力非常强大。
8、大多数机器学习模型(> 51%)将成功投入生产
是的,你没听错。将机器学习部署到生产环境不再是秘密科学。确保该模型对业务产生积极影响或避免其在第一周就出现故障将成为新的重大问题。
9、监控和可观察性工具将得到巩固
对数据流水线进行实时监控、对被导入数据仓库的数据进行可观察性分析以及数据血统将对扩展数据运营至关重要。