“数据科学可用于任何地方”
一位数据科学家如何运用叙事与数据科学技能帮助他人学习机器学习。
作者:Steve Tally
2022年8月4日
阅读时长:6分钟
2012 年,《哈佛商业评论》一篇文章将数据科学称为“21 世纪最性感的职业”。尽管这个标题看似夸张,但商业高管们对数据科学的追捧不难理解。
“数据科学是严肃的、正在爆炸式发展的领域,这是件好事。数据科学可用于任何地方,我认为正是这种爆炸式发展促使我们制作内容来解释相关概念。”某机构数据科学家 Jared Wilber 说道。Wilber 在该机构中扮演着一个特殊且可能独一无二的角色。作为机器学习大学团队的一员,他帮助创建可视化解释器,使他人能够理解机器学习的基础概念。
他的团队最近推出了 MLU Explain,这是一个公开网站,包含可视化文章,通过有趣的动画以易于理解的方式解释机器学习概念。
“学习机器学习很困难,根据你的背景,存在多种入门障碍。它需要大量预设的先验知识,涉及数学、统计学、计算机科学等学科。”他说,“这些内容通常以枯燥的形式呈现,与机器学习系统交互并建立直觉需要专门的软件配置。概念本身很难,但交互式文章有助于让学习变得更容易。”
这个动画旨在帮助学生理解欠拟合与过拟合模型之间的权衡,以及它与偏差和方差的关系。
Wilber 的教育性动画解释器都加入了不少幽默元素。“使用幽默的目标是让机器学习背后的概念尽可能不令人畏惧。因为很多概念在初次接触时就像数学高墙。”他说。
例如,为了解释统计检验(也称为假设检验)的概念,Wilber 帮助创建了《置换检验:可视化解释》。
这个假设性例子——预示了他后来为 MLU Explain 创作的内容——引导读者完成一项测试,判断哪种羊驼洗发水能产生更高质量的羊毛,并配有粉色和蓝色羊驼的生动动画(颜色区分与卡通动物的性别无关)。利用这个主题,Wilber 引导读者逐步了解随机化、响应值、检验统计量、置换、检验统计量分布、p 值,最后得出结果。(在这个例子中,新洗发水确实提高了羊毛质量。)
《魔鬼经济学》的吸引力
Wilber 对解释事物的驱动力,恰如其分地始于图书馆。他在青少年时期首次对统计学和图形产生兴趣,当时他发现自己放学后经常待在学校的图书馆里。
“我的妈妈是老师,也是单亲家长,所以我和我的双胞胎兄弟 Lucas(他是某机构的软件工程师)基本上必须在放学后去学校图书馆等她。”他解释道,“我读了一本叫《魔鬼经济学》的书,当时我不知道,但这本书讲的是行为经济学。我对此非常着迷。书中有一些本质上是数据科学案例研究的内容,涉及意想不到的话题,比如禁止卖淫对犯罪率有什么影响,或者房地产经纪人有什么动机降低你房子的价格以便尽快卖出?”
“我还发现了一些当时非常吸引我的信息图书籍。有一本书展示了《星球大战》中的所有飞船,还有一本《国家地理》的书,里面有关于自然世界的事实。我觉得这些很酷的解释非常有趣。”
高中毕业后,Wilber 进入加州大学伯克利分校,在伯克利数据科学研究所工作,并获得了统计学和计算机科学学位,之后去了两家初创公司工作。他对开源工作产生了欣赏之情。
“在伯克利数据科学研究所,有一些非常聪明的人从事着真正有影响力的开源项目,比如 Project Jupyter,这无疑给我留下了深刻印象。在一次实习期间,我的经理鼓励我为工作中涉及的 Python 或 R 库做贡献。”
但一次意外的休假促成了 Jared 最喜欢的开源项目 roughViz.js——一个数据可视化库,允许用户在浏览器中绘制手绘风格图表。
“我不想把它说得像个悲惨故事,但我因为先天性问题做了心脏手术。我有两到三个月的恢复期,我想做一些有趣的事情并磨练我的技能。”
追求热情
Wilber 从小玩滑板长大,因此他的第一篇交互式文章是从统计学角度解释几十年来滑板运动中音乐使用方式的变化。这第一篇交互式文章引起了 The Pudding 编辑 Matt Daniels 的注意。
“Matt 看到了我的文章,主动联系我,问我是否愿意把它做成一个更大的交互式项目。我很震惊,因为在数据可视化方面,The Pudding 是最好的。我当然答应了。他们非常照顾我,向我展示了他们设计和创建交互式文章的方法。他们对我非常友善和耐心,我非常感谢那次机会。”
这次 Wilber 称之为“伪实习”的经历,促成了他在该出版物上发表的第一篇文章《好的、酷的和糟糕的》。
此后,Wilber 表示他关注大型科技公司的机会——并且心中已有目标。
“我一直想为某机构工作,主要有两个原因:他们拥有大量工程和科学领域的人才,并且在硬件方面拥有无与伦比的资源。”
Jared 在看到网上一个有趣的职位后获得了这个机会。他申请并加入了一个专注于因果推断和机器学习的人力资源研究团队。大约一年后,Wilber 通过内部 Slack 频道听说了一个有趣的数据可视化设计职位。
“我的现任经理 Brent Werness 发布了一条消息,说他的机器学习大学团队刚刚开设了一个新职位,利用数据可视化解释机器学习概念。我一定是在几分钟内就给他发了消息,因为这个职位结合了我的机器学习背景和对数据可视化的热情。”
在 MLU 团队工作的大约两年时间里,Wilber 担任过多种职务,但他可能最引以为豪的是最近在 MLU-Explain 上的工作。
“我希望这些文章能帮助任何背景的人理解或对机器学习产生兴趣。我也认为,在教育环境中努力推动更好的计算接口很重要,而这些文章正是朝着这个方向迈出的一步。”
Wilber 表示,他能够在数据科学中找到创造性的发挥空间是他所热爱的事情,但对他来说最有成就感的方面与该机构的“学习和保持好奇心”领导力原则相一致。
“我们的团队帮助某机构的软件工程师将机器学习用于他们的任务,以便他们能以不同方式使用人工智能来满足客户需求。”他说,“但真正激励我们的是,现在我们将大部分材料外部化,让那些想学习并对机器学习感到好奇的个人能够以一种有趣且引人入胜的方式进行学习。”
研究领域
- 机器学习
标签
- 数据科学
- 机器学习大学
- 在某机构工作FINISHED