回顾2022,展望2023,我正在参与2022年终总结征文大赛活动
300来天的时光飞逝,转眼间岁岁年年的时光就过去,自己在学习和工作中埋头走路。在新年第一天夜回顾2022,回首自己在工作中的沉淀和转变。
20当初年的第终于钟声响起的时刻,我还是北京一家互联网公司的大数据工程师。公司采用CDC增量形式导入日志和业务数据库数据,然后构建离线和实时数据仓库。离线数据仓库主要提供每天早晨的业务报表。同时通过OLAP引擎提供用户画像,内部分析系统,推荐系统进行数据调用。
大数据的报表产出
当然作为一名大数据工程师,少不了的是成为一个SQL boy。针对离线分析,最常用的还是通过HQL来完成。从最基本的业务分析SQL,到难一些的窗口函数,都是工作中最常见的难点。然而对于数据量的增加,对于Hive以及Hive on Spark的分析,这也是工作中的挑战。程序员的价值不仅仅在于CV拷贝,对程序的性能优化也能直接带来最直观的效率提升和经济价值。当然还有用户画像部分,这一套系统也是大数据部门的核心业务之一。用户画像基于Spark和ClickHouse搭建完成。一套用户画像提供给公司最大的数据资产和智能化的数据基石。这其中的挑战一方面是对程序架构的实现,即如何通过平台化的方式去生成用户标签,使得系统的易用性增加也是业务开发中很必要的。
然而大数据系统往往面临2方面的挑战,一方面是随着系统数据量的增加,平台的稳定性如何得到保证。另一方面是数据质量问题,不同数据源之间的数据质量如何得到保障,同一套数据源的数据生成如何校验。这些问题,都是上一家公司需要努力解决的问题。
大数据的系统架构
我在当前公司已经入职半年以上,在这家世界五百强外企担任数据工程师也是有不同的体验。从公司文化来说,互联网公司更加追求扁平化管理,以需求来开发,注重效率,注重KPI。而外企则是将大数据开发也作为一项工程来推进,有Data Engineer、Data Analyst、Business Analyst、Scrum master以及PM,在学校学习的软件工程也才算是派上了一些用场。同时在外企也能有机会跟各个国家同时共事和沟通交流的机会,也是提升自己英语口语和工程化能力的机会。
在外企的技术栈更窄,分工也更细致一些,目前在外企做数据分析,也只用到了Hive和Spark,没有用到Flink。这也体现了国内外技术发展方向的不同。外企针对大数据的工程能力,建立在更多的功能分工上,也并不是像国内这样追求更快的效率。在外企的工作来说,确实没有探索那么多的技术栈。但是一方面公司通过购买Hontonworks的大数据平台,提供了更加稳定的平台。另一方面,通过DA以及BA对DE开发完成的数据进行充分的校验,使得数据质量得到提升。这2方面外企具有更大的优势。
当然外企也有它的不足,比如技术栈更老,针对业务变化的技术架构升级和调整也更缓慢,这也是在外企工作之后对自己有影响的方面。如何保证自己在技术市场上的竞争力,这也是自己在2023将要思考的方向。
作为一名程序员,在当下社会,确实也充满着动荡。实体经济不行,互联网公司增长乏力,国内外大量公司裁员,腾讯、阿里、推特、特斯拉、脸书,各个企业都在喊着降本增效,有时候公司针对一个部门的裁员不是以个人技术能力为考量的。2022年虽风雨动荡,或许也是未来10年最好的光景。而个人只能在寒冬来临之际,拾够柴火,用以过冬。
如果将2022年放到人均70年的漫长岁月中来看,我或许在这一年有得有失。然而支持我前行的,是我的家人,朋友,同事,以及叮当。工作是我的基石,但是陪我走过欢乐痛苦的是他们。2022年,勤耕不辍,但也感激陪伴我的伙伴们。
2023年,我们来了。