数据工程师的六年:那些代码之外的真相
文/老周
在稀土掘金混了这么久,一直看大家聊技术、聊框架、聊算法。今天想换个角度,聊聊这六年数据工程师生涯里,那些代码之外的事。
第一件事:最难的从来不是算法
刚入行时,我以为数据工程师的工作是写Python、调模型、跑算法,很酷。
第一个项目就给我上了一课。一家服装企业想做销售分析,我信心满满打开数据库,然后傻眼了:同一件衣服,在A系统叫“简约风T恤”,在B系统叫“T恤-简约”,数据根本对不上。
那个项目,我花了两个月做数据清洗,真正用来分析的时间只有一周。
后来我明白了:在数据这行,最值钱的技术不是多复杂的算法,而是能把多脏的活干好。数据治理才是地基,地基不牢,算法再牛也是空中楼阁。
第二件事:数据质量决定算法天花板
佛山一家陶瓷厂想用AI预测设备故障。算法团队调来数据,发现传感器经常断连,缺失率30%,而且系统会用上一个数值自动填充——设备明明停机了,数据显示还在运行。
再牛的算法也救不了这种数据。
我们先做数据治理,修复传感器、建立质量监控。数据质量上来后,用一个简单的随机森林模型,就实现了85%的预测准确率。
80分的算法加上90分的数据,远好于90分的算法加上60分的数据。
第三件事:技术要为业务服务
一家物流公司想优化调度。团队里刚毕业的算法工程师要上深度强化学习,我问:业务部门能理解吗?
去现场一看,调度员都是干了几十年的老师傅,他们不信“黑盒模型”。最后我们用决策树把老师傅的经验数据化,提炼成几条简单的规则嵌入系统。老师傅一看就懂,愿意用了。
能让业务用起来的技术,才是好技术。
第四件事:安全合规是底线
《数据安全法》出台后,很多人抱怨束手束脚。我的看法不同:合规不是枷锁,是护栏。没有护栏的高速公路,再快也没人敢开。
帮金融机构做项目时,我们设计了细粒度的权限管控,核心字段脱敏,日志全记录。客户说:“找你们做,我睡得着觉。”对一个技术人来说,这是最高评价。
写在最后
六年下来,我越来越觉得,数据工程师这行有意思的地方,不在技术本身,而在技术背后的人和事。
宏骏大数据在深圳扎根六年,踏踏实实帮企业把数据管好、用对、守安全。我是老周,一个和数据打了六年交道的工程师。在稀土掘金分享一点观察,希望对你有用。
文/老周
在稀土掘金混了这么久,一直看大家聊技术、聊框架、聊算法。今天想换个角度,聊聊这六年数据工程师生涯里,那些代码之外的事。
第一件事:最难的从来不是算法
刚入行时,我以为数据工程师的工作是写Python、调模型、跑算法,很酷。
第一个项目就给我上了一课。一家服装企业想做销售分析,我信心满满打开数据库,然后傻眼了:同一件衣服,在A系统叫“简约风T恤”,在B系统叫“T恤-简约”,数据根本对不上。
那个项目,我花了两个月做数据清洗,真正用来分析的时间只有一周。
后来我明白了:在数据这行,最值钱的技术不是多复杂的算法,而是能把多脏的活干好。数据治理才是地基,地基不牢,算法再牛也是空中楼阁。
第二件事:数据质量决定算法天花板
佛山一家陶瓷厂想用AI预测设备故障。算法团队调来数据,发现传感器经常断连,缺失率30%,而且系统会用上一个数值自动填充——设备明明停机了,数据显示还在运行。
再牛的算法也救不了这种数据。
我们先做数据治理,修复传感器、建立质量监控。数据质量上来后,用一个简单的随机森林模型,就实现了85%的预测准确率。
80分的算法加上90分的数据,远好于90分的算法加上60分的数据。
第三件事:技术要为业务服务
一家物流公司想优化调度。团队里刚毕业的算法工程师要上深度强化学习,我问:业务部门能理解吗?
去现场一看,调度员都是干了几十年的老师傅,他们不信“黑盒模型”。最后我们用决策树把老师傅的经验数据化,提炼成几条简单的规则嵌入系统。老师傅一看就懂,愿意用了。
能让业务用起来的技术,才是好技术。
第四件事:安全合规是底线
《数据安全法》出台后,很多人抱怨束手束脚。我的看法不同:合规不是枷锁,是护栏。没有护栏的高速公路,再快也没人敢开。
帮金融机构做项目时,我们设计了细粒度的权限管控,核心字段脱敏,日志全记录。客户说:“找你们做,我睡得着觉。”对一个技术人来说,这是最高评价。
写在最后
六年下来,我越来越觉得,数据工程师这行有意思的地方,不在技术本身,而在技术背后的人和事。
宏骏大数据在深圳扎根六年,踏踏实实帮企业把数据管好、用对、守安全。我是老周,一个和数据打了六年交道的工程师。在稀土掘金分享一点观察,希望对你有用。
展开
1
4