TowardsDataScience-博客中文翻译-2016-2018-二百七十九-TowardsDataScience

TowardsDataScience 博客中文翻译 2016~2018（二百七十九）

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

假设的数据驱动的组织和他们对重塑过程的需求之间的差距

原文：towardsdatascience.com/the-gap-bet…

图示: Splunk 中票务管理洞察示例用于收集和分析此类数据

在过去的组织中，我的角色一直是一个快乐、横向的角色，对当今数字议程中发生的事情有 360 度的视角。我更喜欢保持顾问的风格，同时在典型 IT 项目的开发步骤中亲自动手。

在过去的两年里，我有机会参与不同 SMB(中小型企业)的许多转型过程，处理数字化、变革管理、分析和数据驱动战略等主题。然而，我的看法是，在这些组织能够实际实施的内容和它们如何实现这些内容之间存在差距。

迫切需要将变革确立为核心竞争力。

这种冲动有两个方面:

组织产生过量的数据
难以提供见解和商业价值

这两者都会导致技术选择和培养所需人才方面的延误和混乱。

我工作过的大多数组织都低估了他们使用、保存或删除的数据的价值和丰富程度。这就是为什么我在考虑数据之前谈论重塑流程的原因。

这里我举个例子！每当我们听到大数据、开放数据、公共数据，我们都会听到不同的相关问题:缺乏标准(开放数据的例子:意大利的两个地区，伦巴第和皮埃蒙特，有完全不同的格式)、安全性、隐私和数据一致性(大多数数据已经过时或质量很差)、失去效用和增加获取价值的难度。

几年前，在一家小公司(但本质上对技术和创新问题“敏感”)，服务台团队的工作方式是让员工进入办公室(同事不断敲门)并抱怨！这是他们的“全天候门票管理”系统。

一个基于云的产品的引入(有很多名字: ServiceNow 、 Salesforce 、 Zendesk 、 CA 等等)最终塑造了同事们面对它的方式。代理组与特定部门相关联，以便解决相关的票据并在它们之间共享信息。引入 SLA-s 是为了尊重优先级、紧急性和 QoS。员工从不同渠道(内部网、网络、社交网络……)使用他们的账户开罚单。几个月后，他们也开始解决自己和对方的抱怨。

一个知识管理存储库在云服务中得到丰富，将信息聚集在可搜索的文件夹中。响应时间比以前缩短了 40%。通过分析树状结构中的票证类别，他们了解到大多数问题都是以多米诺骨牌效应的形式出现的(在同一业务领域中，一个问题会引发其他子问题)。数据分析(关键词计数、要解决的时间、采取的步骤和其他 KPI)使得检测模式成为可能(类似的问题可能需要类似的解决方案！).

此外，不同部门(营销、销售、IT、CRM)之间的沟通得到了改善，同时信息可通过云服务平台社区和论坛立即获得。交流的流程发生了变化。现在正在分析这类数据。

云是范例，产品是媒介，但真正使重塑成为可能的是他们态度的改变。这被证明是一个成功的模式，因为它调动了所有参与者(IT 团队、来自其他业务部门的同事和管理层)并利用了数据的力量。

这看起来像是“最低要求”的思维模式(“只要法律、法规或主管期望我做的，我就做最低限度的事情”)阻止组织通过实施变更管理流程来做出战略决策。

在我看来，在定义一个日期驱动的策略之前，最好开始重塑过程。

数据科学的起源

原文：towardsdatascience.com/the-genesis…

Photo by Blake Richard Verdoorn on Unsplash

最初，微软创造了 Excel。

*历史上不准确，但这些事情从来都不是

现在，电子表格变得没有形状和空洞，空白笼罩着屏幕，分析的灵魂在键盘上盘旋。

3 而分析师说，“要有剧情”，于是就有了剧情。

分析师看到这个图有点傻，她给 x 轴和 y 轴标上了标签。

分析师称 x 轴为“时间”，y 轴为“收入”。有一个标题，有一个传说——第一天

6 客户说:“让我们改善视觉效果，将数据与数据分开。

因此，分析师给这些点着色，增加透明度，并将小的数据点从上面的数据点中分离出来。事情就是这样。

分析师称这种图形类型为“散点图”。有一条回归线，有误差线——第二天。

9 和微软说，“让软件继续发展，让新的想法聚集到一个地方，让新的版本出现。“事情就这样了。

微软称这些变化是“创新的”，顶部的超大图标被他们称为“现代的”微软认为这很好。

然后其他人说，"让土地生产不同的软件:编程软件和网络上的开源代码，根据它们的不同种类承担协作。“事情就这样了。

人们创造了 R、Python 和其他东西:按种类承载 ide 的软件和按种类承载代码的模块。人们认为这很好。

于是有了 Linux，有了 Git——第三天。

另一个人说:“让网络的拱顶里有论坛，把困惑和不困惑的人团结起来，让他们成为日复一日、年复一年地讨论神圣问题的地方，”

15 由于缺乏可复制的例子，让网络论坛中的过度愤怒的人向地球发出愤怒的声音“事情就是这样。

人们分为两大类——帮助困惑者的解释者和播下沮丧种子的阻挠者。

解说者们出现在论坛上是为了给地球带来光明，

帮助门外汉和新人，将光明与黑暗分开。许多人认为他们是好的。

19 还有一些阻挠者，他们珍惜自己的地位，用许多等式来回应新的呼声，并声称需要博士学位才能成功——第四天

Photo by Pietro Jeng on Unsplash

20 人们说，“让 GitHub 充满代码，让信息图表在 Twitter 信息流和脸书的众多烦人广告之间飞舞。”

然后 Apache 创造了大数据的伟大创造物和每一种可能的工具，让数据流大量涌现，并根据它们的种类在其中移动，根据它们的种类创建每一种数据结构。阿帕奇人认为这很好。

22 物联网祝福他们说:“多结果子，多数量，充满厨房里的电器，让地球上的 GPS 定位器多起来。

有了移动应用，有了 Fitbits——第五天

招聘人员说:“T18 让土地根据它们的种类产生生物:数据科学家，处理数据的生物，和数据工程师，那些处理所有其他事情的人，每一个都根据它们的种类。“事情就这样了。

T21:招聘人员根据种类来创造科学家，根据种类来创造工程师，根据种类来创造所有在网络上活动的生物。人们发现这有点令人困惑。

然后有人说:“让我们按照我们的形象，按照我们的样式来创造人类，这样他们就可以控制他们电脑里的数据了。”于是，MOOC 诞生了。

所以 Ng 按照他自己的形象创造了人类，他按照神的形象创造了他们；他创造了深度学习的学生。

28 伽何祝福他们，对他们说:“要生养众多；填满大地并征服它。统治图像识别竞赛和自然语言挑战，统治网络上的每一个问题。

然后人们说:“我给你们全地球上每一个有代码的时刻和每一个有果实有种子的想法。它们将成为你的精神食粮

Photo by William Bout on Unsplash

30 对于地球上所有的分析家和所有在网络上移动的生物——所有在网络上有生命气息的东西——都被给予了开放的食物数据集。“事情就这样了。

人们看到了他们所做的一切，非常好。有数据，有科学——第六天

数据科学项目管理的“黄金标准”

原文：towardsdatascience.com/the-gold-st…

Photo by rawpixel on Unsplash

这篇文章的灵感最近来自哈佛大学生物信息学家唐明的幻灯片，以及约翰·霍普斯金大学杰弗瑞·莱克提供的 Chromebook 数据科学新课程。Leek 认为这很重要，建议你"在数据科学项目中安排 10-20%的时间来组织和记录你的工作。

然而，这是我思考了一段时间的话题。我过去读过的许多其他优秀资源( 1 、 2 、 3 、 4 )启发我创建了一个 Github repo ，用于建立新的数据科学项目目录的黄金标准工作流。

来自 UBC 的统计学家和数据科学家 Jenny Bryan 对 R 脚本的合理布局、工作流程和文件组织/命名有着强烈的看法，他说得很好:

Image Source

Leek 过去曾在 simplystats 博客上谈论过杜克丑闻(还有罗杰·彭和拉法·伊里扎里),所以这也成为他的课程就不足为奇了。对于那些不想看演讲“高通量生物学中可重复研究的重要性:法医生物信息学中的案例研究”的人，我会给出科尔斯笔记版本(但我警告你，你错过了！).

杜克大学的研究人员发表了一项关于使用个性化基因组学进行患者特异性化疗的研究。来自 MD 安德森的两位研究人员巴格利和库姆比斯要求提供数据和代码。花了好几个月的时间来来回回(追逐)才真正得到数据和代码——当他们得到数据和代码的时候，它们是杂乱无章的，并且没有很好的文档记录。巴格利和库姆比斯最终在代码中发现了一个错误，表明它实际上将患者置于风险之中，导致了一场重大诉讼并终止了临床试验。

另外，可悲的是，不愿意分享数据的现象今天仍然很普遍。一个典型的例子是，现在臭名昭著的“寄生虫研究”社论由该领域的权威期刊《新英格兰医学杂志》发表。我还附上了 Stodden *等人的截图，*2018“计算再现性期刊政策有效性的实证分析”。作者随机抽取了 204 篇发表在《科学》杂志上的科学论文，这些论文是在他们的政策实施后发表的，该政策于 2011 年 2 月“要求作者在发表后根据要求提供再现性所必需的数据和代码”。在这 204 篇论文中，有 24 篇有足够的信息(通过链接或在支持信息中)让他们在不联系作者的情况下找到数据/代码。在那些被联系和回复的人当中，有些人要么不确定科学的政策，要么不愿意遵从:

Special thanks to Luis D. Verde for reminding me of the Image Source!

Stodden 和他的合作者从 204 篇文章中的 89 篇文章中获得数据和代码，并随机选择了 22 篇来尝试复制(除了一篇之外都成功了)。他们据此估计，26%将重现这 89 篇文章(56*(1-1/22)))，置信区间为 95%[20%，32%]——作者建议我们继续就记录代码、元数据、工作流以及软件使用和重用的最佳实践和标准进行对话(例如 Docker 容器)。

Source: twitter.com/ProfJohnATo…

我知道有些科学家会先浏览一份手稿的摘要，但我的认可是一份再现性声明，其中包含所有可用的( r a w )数据和代码。如果你没有看到类似这样的东西，请运行！

未能使你的项目具有可复制性是学术不端行为，会有严重的后果。这是对最近名誉扫地的康奈尔大学研究员布莱恩·万辛克的指控之一(未能正确记录和保存研究成果)(我不是说这比 p-hacking 指控更糟糕，但我也拒绝说这比 p-hacking 指控更好)。

一项 2017 Github 调查显示，“不完整或混乱的文档”是对开源软件的头号投诉。

Daniele Procida 在软件文档的黄金标准上发表的这篇优秀文章很好地总结了这一点，他说:

“你的软件有多好并不重要，因为如果文档不够好，人们就不会使用它。

即使出于某种原因他们不得不使用它，因为他们没有选择，没有好的文档，他们不会有效地使用它或以您希望的方式使用它。"

因此，遵循 Procida 先生的明智建议，让最终用户毫不费力地理解您在项目中做了什么，并能够重现那些结果(最好不必联系您)。这对于与现在的同事合作以及为了子孙后代都是至关重要的(例如，当你被要求在 6 个月后重新进行一项分析时，或者对于任何希望复制你的工作并对其进行扩展的研究人员来说，这是你未来的自我)。

Source: opensource.googleblog.com/2018/10/bui…

由于我的 Github repo 已经解决了在您的数据科学项目中建立文件夹的黄金标准(请启动 repo，因为我计划在未来几天更新和改进它)我将谈论数据科学项目管理的另一个重要方面，即:

文件命名

Jenny Bryan 给出了数据科学项目文件命名的三个关键原则。

机粕读的
人类可读的
与默认排序配合良好

为了机器的可读性，我们希望避免空格、标点、句点和任何其他特殊字符(除了 _ 和-) 。

为了便于阅读，你需要给文件取一个有意义的名字。当命名R对象时，有一种缩写object名称的倾向，只要包含注释，这是可以的。例如，cv_perf_recall_rf 对象是对随机森林模型的每个交叉验证折叠的验证召回的计算。

# Calculate the validate recall for each cross-validation fold
cv_perf_recall_rf <- cv_prep_rf %>%
 mutate(validate_recall = map2_dbl(validate_actual, validate_predicted, ~recall(actual = .x, predicted = .y)))

然而，在命名文件时，我会警告不要使用首字母缩写词，除非绝对必要，如果是这样，在README文件中包含该信息。

下一条建议是将日期和数字放在文件名的开头。始终使用 ISO8601 日期格式(yyyy-mm-dd)和带零的左补数字。最大位数将由您可能生成的文件数量决定。假设您希望保存 100 个结构性 MRI 图像文件，那么它应该是这样的001_T1_mri.nii.gz. 假设您认为您实际上会生成 1000 个文件，那么它应该是这样的0025_T1_mri.nii.gz。

采取相反的立场

Leek 还说你应该避免区分大小写，例如Esophageal-Cancer_Report.md 显然是一个可怕的文件名(我的手指因为所有额外的击键而受伤😫)而是暗示esophageal-cancer_report.md 高人一等。

恕我直言，我不同意他的观点。就我个人而言，我觉得茶包在美学上令人愉悦，而esophagealCancer_report.md看起来更令人愉快，而且它没有 Leek 提到的风险；只要你不忘记包括适当的选项来忽略大小写的敏感性。在R中，你可以用stringr包来做这件事，

library(stringr)
str_detect('TOYOTA subaru', fixed('toyota', ignore_case=TRUE))

在终端中，您可以使用-iname 标志来忽略find命令的不区分大小写。如果你是健忘的，或者仅仅是有效率的( i. e. lazy)，你可以在你的.bashrc文件中包含这个别名🤷

让你的文件名以大写字母开头显然不是一个好主意，因为这会导致你添加额外的击键来生成大写字母(例如T3)。然而，使用camelCase,你可以通过使用 Tab 键自动完成来避免额外的击键。

结束语

如果你使用R，你应该仔细阅读 Kirill Müller 的here()软件包，它可以消除由setwd()引起的尴尬的工作流程问题。

Jenny Bryan 大力提倡使用他的软件包，并在她的博客文章“面向项目的工作流”中写了关于如何做和为什么做的内容。

遵循这条黄金标准数据科学项目管理建议，你在处理“大数据”时将不会有任何问题🙄

如果你觉得这篇文章有用，请随意与他人分享或推荐这篇文章！😃

一如既往，如果您有任何问题或意见，请随时在下面留下您的反馈，或者您可以随时通过 LinkedIn 联系我。在那之前，下一篇文章再见！😄

数据科学的黄金机会|第 1 部分

原文：towardsdatascience.com/the-golden-…

今年是 2013 年，这是圣安东尼奥马刺队和迈阿密热火队之间的 2013 年 NBA 总决赛第六场。圣安东尼奥以 3 分领先。在比赛还剩 12 秒的时候，勒布朗·詹姆斯接了一个球，并尝试了一次三分投篮。迈阿密需要三分来打平比赛，并且仍然有机会赢得 NBA 总冠军。尝试失败了。人群发现自己处于一种沉默和顺从的混合状态。然后球从篮板上掉了下来，克里斯·波什抢到了篮板。在比赛还剩 7 秒时，他将球传给右翼的雷·阿伦，后者后退三步。球掉了进去，人群爆炸了。比赛只剩下 5 秒钟，双方打成平手，被迫进入加时赛。迈阿密赢了第 6 场比赛，并迫使第 7 场比赛。剩下的就是历史了……

像来自雷·阿伦的 T3 这样的镜头是最难找到的。首先，球员必须承受巨大的压力。他知道需要 3 分来扳平比赛，重新获得 NBA 总冠军的机会。其次——多名防守队员高速赶来，防守这场比赛中可能是最后的一击。第三，考虑到这些情况，你必须做好充分准备才能打出这样的一杆。

Ray Allen’s three point shot against SA (giphy.com/gifs/nba-ba…)

在这篇文章中，我们想分析哪些参数对三分球的性能有影响，哪些是不相关的。我们想看看 NBA 球员超过 120000 次投篮的测量参数，以获得洞察力，并寻找这些参数与最后一秒投篮的表现和成功之间的可能联系。我们将关注球员在投篮时必须应对的所有情况。我们不会考虑球员的个人技能，因为我们想调查环境及其对击球的影响。这导致了基于数据使用的论文证明。最终结果应该是知识，允许我们将所有这些输入到神经网络中，以预测三分之一的成功率，或者换句话说，球员是否应该射门。

数据和分析

我们将使用的数据集测量了来自 NBA 比赛的超过 120000 个镜头，并提供了大量信息。这里可以找到 。让我们仔细看看它:

First rows of the used dataset

首先，我们有比赛和日期。接下来，我们有一些非常有趣的参数，比如镜头时钟和游戏时钟。我们必须考虑的下一个参数是触摸时间和射击距离。我们还有到最近的防守队员的距离以及射门是否成功的信息。所有这些信息真的很有趣，使我们能够发挥创造力，越来越多地研究这些参数。

1️⃣滤波三分球

首先，我们要使用我们数据集中的所有三点射击尝试，因此让我们检查我们数据集的分布。

Distribution of 2 point shots(violet) and 3 point shots(yellow)

我们的数据集包含超过 94，000 次两点射击尝试和超过 33，000 次三点射击尝试。这是一个有趣的信息，因为现在我们知道我们的数据集中有多少有趣的样本。我们将尝试拍摄 3 个点，并将两个点的数据分开，因为我们只想处理我们案例中感兴趣的数据。

👨‍💻数据准备

在我们开始询问具体问题和调查我们的数据集之前，我们必须先对其进行过滤。如上所述，我们有超过 33.000 个三分球，但我们不想处理所有的三分球。这是因为我们想只关注最后一秒镜头和“正常”镜头之间的关键区别。因此，我们将我们的 33.000 个三分球分成所有投篮，投篮时间小于 7 秒。既然我们已经对数据进行了分离和过滤，是时候提问和获取知识了。

2️⃣:拍摄时间会影响第三次拍摄的成功吗？

这是一个非常有趣的问题，因为通常你会认为在拍摄时间压力下拍摄的镜头比拍摄时间长的镜头成功率低。为了研究这个问题，我们必须得到与炮时钟压力相关的成功和失败炮的分布。

Distribution of made and missed 3 point shots with < 7 seconds shot clock

仔细观察这个图，可以发现失败的三分比成功的三分多得多。如果我们用绝对数字来说，这意味着 7 秒钟以下的成功率是 33%。或者换句话说，在 7 秒钟内 3 次三分球尝试中的 1 次是成功的。这是我们能够实现的第一次知识增长。现在的问题是:“成功的三和不成功的有什么区别？有没有区别或者根本没有区别而且都只是基于纯技巧？

后卫距离 3️⃣

我们要检查的下一个参数是最近的防守者距离。如果我们想到一个典型的最后一秒投篮，应该有一个紧密的防守，这应该使球员更难投进三分。

Distribution of successfull and unsuccessfull shots related to the defender distance

如果我们现在看一下分布情况，很明显，防守队员越靠近，球员就越难投篮。我们还可以看到，大多数投篮都是在 5 英尺范围内进行的，而大多数投篮不中也是在这个范围内进行的。此外，我们可以注意到，在 10 英尺范围内，投篮不中的次数远远高于 10 英尺范围外的投篮次数。这意味着射手有越多的空间，他就越有可能得分空位三分。现在考虑防守队员的平均距离，它也向我们表明，失败组的防守队员比成功组的防守队员离射手更近约 0.6 英尺。

平均成功定义距离= 5.95 英尺

平均故障定义距离= 5.34 英尺

现在让我们记住，根据给定的数据，3 分投篮的总体成功率是 33%。但是如果我们现在回顾一下不同的后卫距离等级，我们会看到一些不同的东西:

Success rate of three pointers in relation to defender distance

结果应该不令人惊讶，但有趣的是，如果防守队允许对手占据太多空间，三分球的转化率会迅速增长。

4️⃣射击距离

在我们提出了取决于后卫空间的三分投篮成功率的差异之后，我们现在准备看看投篮距离。和前面的参数一样，对于三分球来说，投篮距离也是一个非常重要的参数。从比三分线更高的距离得分要复杂得多。通过仔细观察根据投篮距离的三分命中和失误的分布，我们可以看到大多数命中和失误的投篮都在 23 到 26 英尺之间。

Distribution of successfull and unsuccessfull shots rekated to shooting distance

让我们不要关注不同的投篮距离:我们可以清楚地看到，射手的距离越大，三分球尝试的成功率下降得越多。

Distribution of successfull and unsuccessfull shots in relation to shooting distance(left = 23 to 25 feet, middle = 25 to 28 feet, right = 28 to 32 feet)

这意味着三分球尝试的投篮距离越高，该球被标记为失误的几率就越高。

5️⃣的触摸时间

触球时间描述了球员在射门前控制球的时间。知道成功率和接触时间之间是否有联系是很有趣的。为了实现这一点，我们首先需要对照该参数检查投篮命中和投篮不中的分布:

Distribution of made and missed shots compared to the touch time

我们可以清楚地看到，大部分镜头的触摸时间在 0 到 2 秒之间。此外，越来越清楚的是，大多数单位放置在 0 和 5 秒之间。现在让我们放大大部分数据所在的区域。如果我们仔细观察 0 到 5 秒之间拍摄的照片，我们会发现一些突出的东西:

Made and missed shots compared to touch time in 3 categories (left = 0 to 1 sec, middle = 1 to 3 sec, right = 3 to 5 sec)

球员控球时间越长，成功率就越低。这是非常令人惊讶的，因为通常我们可以假设，随着时间的推移，球员有更多的机会把自己放在最佳位置，打出好球。

🏁结论

在这篇文章中，我们定义并研究了在拍摄时钟压力下三点拍摄的最重要参数。总结本文中获得的所有信息，我们可以说:

33%的拍摄时间少于 7 秒的三次拍摄都是成功的
防守者给球员的空间越大，相对于射门距离来说，三分球的成功率就越高
球员投三分球的距离越大，成功率就越低
在触摸时间不太高的情况下，拍三的成功率更高

所有这些都是可以成功获得的洞察力，并用数据来证明。现在的问题是，这是否可以用来为未来的射击创建一个概率建议，或者需要更多的参数来预测一些有价值的信息？我想在第二部分回答这个问题。因此，我们将在“keras”中建立和训练一个神经网络，以预测在几种情况下三分球成功的概率，以及是否接受它。

我希望你喜欢这个数据分析，即使它证明了比发现一些突出的新东西更众所周知的事实。但是证明事实和获得知识是建立神经网络的第一步，因为我们确实需要知道我们需要遵循哪些规则。

人工智能的巨大鸿沟

原文：towardsdatascience.com/the-great-d…

作者:Aadhar Sharma、Deepak Singh 和 Sukant Khurana

Figure 1: Timeline of AI development

洛夫莱斯伯爵夫人兼查尔斯·巴贝奇的助手艾达 T3 被认为在 1843 年编写了第一个计算机程序。她是第一个认识到计算机不仅仅可以用于纯粹的计算的人。她也是第一个就人工智能(AI)的概念对分析引擎发表评论的人；她在笔记中写道:

“分析引擎并不自命能创造任何东西。它可以做我们知道如何命令它执行的任何事情。它可以跟随分析；但它没有能力预测任何分析关系或真理。”

Ada 不希望分析引擎能像人一样聪明；艾伦·图灵在他 1950 年题为“计算机器和智能”的论文中反对的东西。人工智能的出现是由麦卡洛和皮茨的开创性研究(1943；M&P)——单点神经元的计算模型(一个过于简化的大脑模型)——和唐纳德·赫布的可塑性法则(1949)。艾伦·图灵(Alan Turing)在机器智能方面有影响力的工作(始于 1951 年的《模仿游戏》(the Imitation Game)一书)为他赢得了“现代计算之父”和人工智能(AI)的称号。

20 世纪 50 年代，计算机终于变得足够强大，可以模拟这些想法。据报道，纳特·罗切斯特首次尝试对 M & P 型号进行编程，尽管最初并不成功。最初的失败导致研究人员约翰·麦卡锡马文·明斯基* 克劳德·香农和纳特组织了 1956 年至关重要的达特茅斯研讨会【3】。这个大联盟集会的想法是就如何模拟智能(主要是人类)进行头脑风暴。这正式确立了人工智能作为计算机科学的一个子领域。*

*1957 年， *Frank Rosenblatt，发明了感知机，一种模式识别算法，导致了人工智能的一场革命，吸引了像苍蝇一样的研究人员，直到 Minsky 和 Papert 在 1969 年出版了他们的书《感知机》，这本书开启了臭名昭著的人工智能冬天。1982 年春天，约翰·霍普菲尔德(John Hopfield)的联想神经网络(T7)问世。Rumelhart、Hinton 和 Wiliams 在 1986 年发表了“反向传播”学习算法，这重新引发了人们对人工智能的极大兴趣，也许对神经网络来说尤其如此。

据陷入科学与工程辩论的人说，人工智能具有双重性；它既是科学也是工程。帕特里克·温斯顿(Patrick Winston)写道，人工智能有两个目的:一是我们试图理解什么是智能的诺贝尔奖获得者的目的，二是让机器更有用的创业目的。作为一门科学，它是要发现某些生物系统的本质，主要是人类的智能；研究认知科学的方法。作为工程，它关心的是开发对某些目的有用的智能系统。无论分类如何，我们

人工智能作为基础科学

人工智能工程

担忧

计算机建模以发现智能生物现象的本质(主要是人类)

开发有用的智能系统，并将其应用于企业。

表 1: AI 作为基础科学与工程

作为一个领域，人工智能已经走过了漫长的道路，从建模思维、感知和行动的科学到在无数职业中提供帮助和援助的工程系统。人工智能的演变非常丰富，并在生物学、哲学、语言学和心理学中找到灵感，尽管不是每个人都赞赏人工智能作为科学如何演变为工业研究。看来，虽然洛夫莱斯女士对人工智能的看法是错误的，但她对计算机应用的认识是正确的。应用人工智能驱动的进化极大地影响了人工智能领域，并引发了许多关于对它的伦理和道德义务的关注。

作为基础科学的人工智能:好与坏

MAC(机器辅助认知；1963)项目是麻省理工学院的一个主要项目，由 ARPA 资助，每年的预算超过 300 万美元， Minsky ，AI 历史上最有影响力的人物之一，提到超过 100 万给了人工智能小组；

“最初几年，我们把这笔钱花在硬件和学生身上，但到了第十年，我们开始制造自己的硬件，所以我们几乎把所有的钱都花在了教职员工和学生身上”【5】。

他的目标是雇用人才来学习和设计可以解决非算术问题的计算机系统，使机器智能化。他非常热衷于为人工智能研究提供一个意义深远的平台，以至于他将所有的资金和努力都用于人工智能的健康和可持续发展，其中可持续发展不仅意味着传播负担得起的人工智能，还包括研究语言学、视觉感知、模式识别、机器人等问题。使用各种模型和技术，例如数理逻辑、概率和神经网络等等。他和当时的其他研究人员在这个领域培养了一批杰出的科学家。

帕特里克·温斯顿曾经是明斯基的研究生，后来接替他成为人工智能实验室的主任。Pat 解释了事情开始走下坡路的原因——人工智能和机器人技术发展到了一个可以实际做有用的事情的地步，所以焦点转向了实际应用，主要是由工业需求和创业激情驱动的，这一些——将更基本的科学问题放在了一边【6】。诺姆·乔姆斯基一贯蔑视“新人工智能”对统计技术的严重依赖，他不期望这些模型能够提供人工智能作为一门科学有义务提供的探索性洞察力。他认为，这种依靠加速研究、大规模记忆和计算能力的更新的科学不太可能预测关于智慧生物或认知性质的一般原则；这使得工程学远离了科学。然而，并非所有人都同意他的观点， Peter Norvig，(一位杰出的人工智能研究人员，《人工智能:一种现代方法》的合著者，谷歌的研究主管)有着非常不同的哲学和技术观点，他写道【7】:

“我同意工程上的成功不是科学的目标或衡量标准。但我注意到科学和工程是共同发展的，工程上的成功表明某些东西在正常工作，科学上成功的模型的证据(但不是证明)也是如此”。

诺姆承认了这些评论，他承认统计技术本身就像一个搜索引擎，有着巨大的实用潜力。

杰出的神经科学家和意识专家 Christof Koch 提到了理解潜在机制对开发高质量工程产品的重要性。他写道，

“这种知识的缺乏使得任何关于我们何时能实现强大人工智能的预测都充满了不确定性”

该领域目前的一个趋势是机器学习，它几乎已经成为人工智能的同义词；深度学习(以下简称 DL)是机器学习的一种类型，目前正在大肆宣传。DL(或多隐层神经网络)从 M & P 神经元中汲取灵感。神经网络的想法首先由 Frank Rosenblatt推广用于模式识别应用，然后由 Minsky和 Papert 取消推广，部分导致了人工智能的冬天。明斯基提到，“我们做得太好了”，十年的时间里没有一篇该课题的论文【5】。虽然这是通过批评一个分析不足和夸大的模型来谈论科学的良好实践，但通过贪婪地发现所有存在的东西来停止一个领域的研究进展肯定是不好的，明斯基后来承认了这一点。

被尊称为神经网络之父的杰弗里·辛顿对神经网络的重新普及负有部分责任。他自 1986 年以来一直在全球范围内领导神经网络研究，是由 Yoshua Bengio 、 Yann LeCun 及其学生组成的 AI【9】知名加拿大学术界成员；一起创造了目前 DL 的全球热潮。今天，DL 无处不在，部分是因为它的函数逼近能力和模式识别的倾向。它们可以应用于几乎任何人工智能应用程序，而不需要很好的头脑风暴(但需要一些调整)。然而，最大的担忧是我们无法理解他们是如何做这些事情的；从技术上讲，这是一个非常困难的问题，它引发了许多伦理和哲学上的关注，如果它普遍存在，它对这个领域具有直接的重要性。

人工智能作为工程:工业和创业目标

其他道德问题源于人工智能战争，这是一场由行业技术巨头资助的公司之间研究人工智能革命性进展的竞赛。问题包括对小型独立研究的负面影响，以及在某些情况下以过早的趋势驱动人工智能初创公司，以及收集未经请求的数据。

许多人担心学术界将不再有顶尖人才，因为这个行业正在吸走所有的博士。2014 年被谷歌以 6 亿美元收购的 DeepMind 公司雇佣了超过 100 名博士，与 OpenAI、脸书、Twitter 和百度等其他巨头的趋势相似。

尼克·博斯特罗姆问辛顿，当他认为这项技术可能被滥用时，为什么还要做研究，他回答说:

“我可以给你通常的理由，但事实是发现的前景太美好了。”

类似的回应也曾被奥本海默在他的核武器研究中引出；“当你看到技术上很好的东西时，你就去做，只有在你取得技术上的成功后，你才争论该怎么办”。**

人们必须认识到，一个新现象或技术进步的发现对研究人员来说是甘露，但有时科学和技术发展太快，以至于没有足够的时间来完全理解它们的影响。Pat Winston将这种增长模式比作“气球模式”，即“这个领域被夸大到令人难以置信的程度，而且存在被超卖的严重危险”。**

Juergen Schmidhuber 对 hint on、Bengio* 和 LeCun 提出了批评，因为他认为在关于 DL 的学术研究中存在自引现象【9】。*

虽然 DL 因其盲目计算而受到一些批评，但企业家界出现了一种新的担忧。DL 算法执行大量的向量运算并处理大量的高维数据，由于它们在工业中被广泛使用，一个新的想法是制造专用于 DL 的数据处理芯片。目前，大多数 DL 计算是由 CPU 和 GPU(在某些情况下是 FPGAs)处理的，这些处理单元是为通用程序和图形处理的处理而设计的，因此处理 DL 操作需要许多中间原语 CPU/GPU 操作。这被专注于开发新半导体芯片的初创企业视为一个机会之窗，这些芯片可以更快、更有效地处理 DL 计算，并且能耗低得多。DL 的新热潮对投资者也很有吸引力，五年前这种冒险会让他们歇斯底里。像英伟达和英特尔这样的大联盟公司已经意识到了这一点，并且已经在开发他们自己的版本【11】。

DeepMind 的联合创始人戴密斯·哈萨比斯表示，就人工智能的创新速度和目前的情况而言，人工智能战争中公司之间的合作和协调是虚拟的。比竞争对手更快地推进研究往往会导致偷工减料，这是灾难的原因。他提到我们必须避免抄近路的 AI 比赛【12】。

当我们致力于我们的会议只是机制时，有一种倾向，不是致力于基本问题，而是，只是那些机制可以处理的问题，这是人工智能进化成人工智能的部分原因。除了道德义务之外，还有很多技术问题。毫无疑问，机器视觉的准确性已经大大提高，语音处理系统也比以前做得更好，这都要归功于 DL，但事实确实如此。我们可能正在走向 DL 的饱和点，如果是这样的话，那么就迫切需要通过与神经科学、心理学、生态学等领域的合作来寻找接近智力的新灵感。(回到灵感循环)

伦理问题在两个阵营中都很普遍；伦理上的争论不是我们必须把人工智能当作科学或工程来追求，也不是工程创新应该落后于科学发现，而是人工智能中的工程和科学应该齐头并进，一个不能支配另一个，以至于偏离目标。我们忽视了我们对人工智能作为一个领域的责任，无论是为了我们贪婪的发现前景，还是财务和创业议程。我们对人工智能的责任是推动它理解什么是真正的智能，并设计可持续使用的系统。一位伟大的哲学家，蜘蛛侠的叔叔本曾经说过，“权力越大，责任越大”；一本书名粗鲁的书的作者马克·曼森提出了他自己的观点:“责任越大，力量越大”。我们必须理解我们对人工智能的道德义务，尊重它作为一个领域，并以最佳方式利用它来解决紧迫的问题，而不仅仅是那些具有巨大经济前景的问题。

参考文献:

[1]: 阿达·洛芙莱斯笔记和女士日记，耶鲁大学

[2]: 计算、机械与智能，艾伦·图灵；1950

[3]: 关于人工智能的达特茅斯夏季研究项目提案，麦卡锡，明斯基，罗切斯特，香农；1955 年 8 月

[4]: 人工智能:一个视角，帕特里克·h·温斯顿；麻省理工学院出版社；1982

[5]: 马文·明斯基的未来愿景，杰里米·伯恩斯坦；《纽约客》；1981 年 12 月

[6]: 诺姆·乔姆斯基论人工智能哪里出了问题，雅登·卡茨；大西洋；2012 年 11 月

[7]: 论乔姆斯基和统计学习的两种文化，彼得·诺维格；

[8]: 人工智能会超越我们自己的，克里斯托夫·科赫；科学美国人；2015 年 9 月

[9]: 欢迎来到 AI 阴谋，Bergen M .和 Wagner K 重新编码；2015 年 7 月

[10]: 末日哲学家，拉菲 k；《纽约客》；2015 年 11 月

[11]:强大人工智能硅脑的竞赛，麻省理工技术评论；马丁·贾尔斯；2017 年 11 月

[12]: 超智能:科学还是虚构，未来生命研究所；2017 年 8 月

图表列表:

图 1:人工智能进化的时间线

表格列表:

表 1:作为基础科学和工程的人工智能

阿达尔·夏尔马是苏坎特·库拉纳博士团队的实习生，从事人工智能伦理方面的工作。Deepak Singh 博士在印度艾哈迈达巴德的物理研究实验室工作，与 Khurana 博士在人工智能伦理和科学普及方面进行合作。

你可以在www.brainnart.com或www.dataisnotjustdata.com了解更多关于 Sukant Khurana 博士的信息，如果你希望从事人工智能或数据科学研究项目以造福公众，你可以在 skgroup.iiserk@gmail.com 联系他或在 linkedin 上联系他。

算法决策中的隐患

原文：towardsdatascience.com/the-hidden-…

“人类数据中存在人类偏见。”

A robot judge in Futurama was all fun and games, until COMPAS was created.

人工智能静悄悄的革命看起来一点也不像电影预测的那样；人工智能渗透到我们的生活中，不是作为有意识的机器人取代我们的生活，而是稳步进入以前人类专有的决策领域。因为这很难发现，你可能甚至没有注意到你的生活在多大程度上受到算法的影响。

想象一下这个——今天早上，你醒来，伸手拿起手机，查看脸书或 Instagram，在那里你从一个由算法创建的内容提要中消费媒体。然后你检查了你的电子邮件；当然，只有重要的信息。所有可以忽略的东西都会被自动转储到你的垃圾邮件或促销文件夹中。你可能听过 Spotify 上一个新的播放列表，它是根据你之前感兴趣的音乐推荐给你的。然后你继续早上的例行工作，然后上车，用谷歌地图查看你今天的通勤时间。

在半个小时的时间里，你消费的内容、你听的音乐和你去上班的路程都依赖于你自己以外的脑力——它依赖于算法的预测模型。

机器学习在这里。人工智能在这里。我们正处于信息革命之中，虽然这是一个难以置信的时间和地点，但人们必须警惕随之而来的影响。让一台机器告诉你你的通勤时间有多长，你应该听什么音乐，你可能会接触什么内容，这些都是相对无害的例子。但是，当你在浏览脸书的新闻时，某个地方的算法正在决定某人的医疗诊断、假释资格或职业前景。

从表面上看，机器学习算法看起来像是一个有前途的解决方案，可以缓解人类偏见这一邪恶问题，以及它可能对数百万人的生活产生负面影响的所有方式。这个想法是，人工智能中的算法能够比人类更加公平和有效。世界各地的公司、政府、组织和个人出于多种原因将决策权交给他人——更可靠、更容易、成本更低、更省时。但是，仍有一些问题需要注意。

定义一般偏差

Getty Images

偏见可以广义地定义为对一些理性决策或规范的偏离，可以是统计的、法律的、道德的或功能的。我们在日常生活中和社会层面上都看到了偏见。通常，一个延续另一个。

例如，在你回家的路上，你可能会选择一条“更安全”的街道——是什么决定了这一点？也许这个地区是那些社会经济地位较低的人的家园。虽然不一定是特权较少的人更有可能参与犯罪活动，但你的偏见，无论是显性的还是隐性的，都会促使你走上不同的道路。在更大的范围内，这些地区可能会有更多的警察巡逻，这反过来会导致比更富裕的社区更高的逮捕率，给人一种犯罪率更高的错觉，而不管那里的实际犯罪率有多高。这种恶性循环似乎只会强化我们最初的偏见。

算法和机器学习

我们先来区分一下经典算法和机器学习。算法通常被描述为输入输出机器。传统的编程依赖于植根于逻辑的函数——如果 x，那么 y。算法是基于规则的、显式的和硬连线的。机器学习比这更复杂。学习算法不是通过其数据必须满足的预编程条件来做出决策，而是通过对其做出决策的领域中成百上千个数据集的审计和统计分析来做出决策。

例如，在寻找最有可能成功的候选人的雇佣学习算法中，训练数据集可以被馈送来自公司中表现最佳的候选人的 200 份简历的数据。然后，该算法会找出模式和相关性，这有助于根据简历分析新候选人的成功可能性。将决策交给机器学习算法对相关人类有许多好处，包括节省时间、金钱和精力。然而，当涉及到决策的道德和责任时，界限就变得模糊了。因为我们无法准确理解为什么一台机器会做出这样的决定，所以当偏见发生时，我们并不总是能够检测和回避它。

机器学习中的偏差

retrieved from www.mathwashing.com

数学清洗(偏向算法)

“数学清洗”是一个被创造出来的术语，用来代表社会对数学和算法的痴迷，以及一种心理倾向，即如果有数学或行话与之相关，就更容易相信某事的真实性——即使值是任意的。人类有一种倾向，认为数学的介入会自动使事物变得客观，因为数学对象似乎独立于人类思维。反对这一观点的论据根植于数学的存在，它是基于人类的思想。数学作为一种构造，连同它的属性，作为人类思维的产物而存在，这使得它像其他度量一样容易受到人类主观性的影响。

训练数据‘分类的公平性’

我们将从如何训练算法开始——机器学习算法是基于程序员选择的数据集进行训练的。有了这些训练数据，他们可以识别并利用统计数据中的模式、关联和相关性。

例如，可以通过向一个算法输入数千张不同的猫和狗的图片，来训练它区分猫和狗。分类是最容易的任务；将一种算法应用于基于一个人的判断呼叫，要比这复杂得多。例如，在刑事司法系统中的人工智能的情况下，特别是协助法官做出是否给予罪犯假释的决定——工程师可以输入人类过去做出的数千个决定和案例，但人工智能能够理解的只是决定的结果。它仍然不具备理解人类受如此多的变量影响的感觉，并且理性并不总是人类决策的最高层次。这是计算机科学家创造的一个问题，叫做“选择性标记”人类的偏见是通过多年的社会融合、文化积累、媒体影响等习得的。所有这些习得的偏见都会渗透到学习的算法中——就像人类一样，他们不会一开始就有偏见。然而，如果给定一个有缺陷的数据集，它们可能会以这样的方式结束。

社会反思

算法被教导根据提供给它的信息和它从这些信息中提取的模式进行预测。鉴于人类表现出所有类型的偏见，代表环境的数据集也可以学习这些偏见。从这个意义上说，算法就像镜子——它们检测到的模式反映了我们社会中存在的偏见，无论是显性的还是隐性的。

Tay, the Artificial Intelligence chatbot designed by Microsoft in 2016.

以最初的微软聊天机器人 Tay 为例。Tay 旨在模拟一个十几岁女孩与 Twitter 用户互动的推文——然而，在不到 24 小时的时间里，互联网上看到 Tay 从推文像“人类超级酷”这样的无辜事情变成了相当令人担忧的事情，例如“希特勒是对的，我讨厌犹太人”，仅仅是因为互联网上的周围推文。微软删除了这些推文，解释说 Tay 在初始测试阶段没有表现出任何问题，测试阶段有一个训练数据集，其中包含经过过滤的非攻击性推文。很明显，当 Tay 上线的时候，过滤已经过时了。这似乎表明了一种可能的偏差缓解方法，即随着算法投入使用并与现实世界接触，对输入数据进行监控和过滤。

文字嵌入

Taken from “Efficient Estimation of Word Representations in Vector Space,” 2013

单词嵌入是机器学习中使用的一种技术，其中单词被翻译成向量——这些向量构成了算法的单词字典。单词嵌入广泛应用于许多常见的应用程序中，包括翻译服务、搜索和文本自动完成建议。根据向量的角度，除了常见的关联单词和相关性之外，机器还能够理解单词的意思。例如，国王和王后这两个词与王子和公主联系在一起。对 word embedding 的理解水平可能相当复杂，这使得它成为分析 SAT 考试、工作申请、求职信等内容的一个很好的工具。

Taken from Bolukbasi et. al, 2016.

然而，单词嵌入的一个问题是，它有可能放大现有的性别关联。Bolukbasi 等人做的一项研究。波士顿大学的 al 研究了谷歌翻译服务中使用的单词嵌入。培训期很少涉及许多人类工程师，而是基于自然语言内容库进行培训，如新闻文章、新闻稿、书籍等。Bolukbasi 调查了土耳其语到英语翻译之间的关系，因为土耳其语短语使用中性代词。在翻译中，谷歌将被迫选择一个代词。这项研究发现了谷歌的性别歧视，因为它将“o bir doktor”翻译为“他是医生”，将“o bir hemsire”翻译为“她是护士”。

“感知”算法与“非感知”算法

从表面上看，解决公平问题的最简单的方法是从一开始就隐瞒造成偏见的信息；例如，在审阅简历的算法中，从概念上消除简历中的姓名和性别听起来像是可以防止性别偏见的发生。如果没有关于这个人性别的信息，那么机器不可能区别对待男性和女性，对吗？

比那更复杂。我刚刚在上面描述的叫做“无意识”的算法构建方法。去掉这个属性，前提是性别在工作能力上是一个可以忽略的因素。然而，因为算法被训练来识别统计数据中的模式，所以无论我们走到哪里，社会中根深蒂固的现有相关性、刻板印象和不平等都会出现；它们存在于现实中，所以它们也存在于我们训练算法的数据集中。机器学习将能够发现与性别相关但没有明确说明的可观察特征。例如，一个雇佣分类器可能会将权重放在一个人服兵役的时间长短上，并将其与能力或忠诚度联系起来，而在以色列，男性通常服役 3 年，而女性服役 2 年。现在你有了一个与性别密切相关的属性，但是去掉了必要的信息，你就去掉了做出客观决定所必需的背景。正是因为这个原因，一个不知道的算法有时会比完全知道的算法更有偏差。

另一方面," aware "方法确实使用了性别信息，并考虑到了女性服役时间较短的趋势。缓解这些关于准确性和公平性的问题通常需要权衡——它们不可能完美地存在于同一个领域。无意识方法是一个更公平的过程，它在训练阶段不考虑敏感属性。然而，这可能会导致有偏见的结果。aware 方法使用了一个更不公平的过程——它考虑了敏感的分类和信息，但最终可以得到一个更客观的结果。

反馈循环/自我延续

此外，机器学习容易陷入反馈循环，最终可能导致偏见永久化。例如，当基于机器的预测用于犯罪风险评估时，黑人比白人更有可能被评为高风险。这仅仅是由于黑人和白人之间犯罪记录的差异，这不幸地反映了人类在种族上的偏见。因为机器已经将另一个黑人标记为高风险，这种新的数据收集方式进一步倾向于对黑人被告的偏见。在这种情况下，该系统不仅反映了从人类偏见中学习到的模式，还加强了自身的学习。

代孕目标

除了训练数据中的问题之外，偏差还可以通过许多方式进入算法过程。我们的下一个探索是关于传播算法的度量的构造有效性——你试图度量的实际上是度量你需要的吗？而当它没有精确测量时，会有什么后果？

社交媒体算法不再根据时间顺序显示帖子，而是通过机器学习算法过滤你曾经参与的一切。目标是衡量参与度——根据你之前的兴趣，它会向你展示更多它认为你可能会参与的内容。一条内容的参与度越高，该算法就越有可能将这条内容发布到其他新闻源上——在完美的世界中，这是有意义的。受欢迎的帖子理论上应该是更好的内容——否则，它们为什么会表现得这么好？

不幸的是，人类并不像我们需要的那样聪明，以使这个算法按照它应该的方式工作。持续表现最佳的内容可能由假新闻、名人八卦、政治诽谤和许多其他对改善世界毫无用处的东西组成。但是因为这些算法不能理解这一点，这些回音室就形成了，并且继续下去。

招聘过程中的许多决策也交给了人工智能，如简历筛选、工作能力分析和比较。招聘是一个非常及时的过程，对每个人来说成本都很高——如果出错的话成本会更高。全国大学和雇主协会估计，一个 0-500 人的中型公司雇佣一名员工的成本约为 7600 美元。通过让算法来完成繁重的工作，公司可以将大量资源和资金投入到其他地方，并有望最终做出成功的选择。

然而，替代目标在这一过程中成为一个问题，因为许多理想的工作特征很难操作化。如今，一些行业术语包括“创造力”、“沟通”和“生产力”，所有这些都难以衡量。衡量创造力最常见的测试是替代用途测试，在这种测试中，人们想出普通物品的非常规用途。基于这一衡量标准，一名员工可能会被分配一个“创造力倾向”分数，然后该分数将成为一个培训数据集的一部分，该数据集将筛选具有相同特质的未来员工。问题是替代用途测试只测试创造力的一个方面——发散思维。它忽略了创造力的所有其他方面，其中一些可能对公司文化非常有价值。你最终得到的是一群创意人员，他们都以同样的方式发挥创造力——讽刺的是，这很无聊。

尽管我们浪漫地认为机器学习算法有可能做出重要决策，但事实是，它们无法理解客观、真实、中立或平等。当人类的生命受到威胁时，所有这些特征都是重要的考虑因素。我们将何去何从？

结论

尽管我们已经阐明了人工智能模型可能带来的许多问题，但公司可能从以人为中心的决策方法转变的原因有很多。如前所述，尽管存在所有缺陷，人工智能仍然比人类更加客观。正因为如此，我们看到人工智能在基于决策和预测的任务中的持续使用。但偏差较小不等于无偏——当算法做出有偏差的决策时会发生什么？我们如何决定谁应该承担责任？这并不是说我们可以惩罚一个做出有偏见预测的算法(我们会怎么做，删除它？).

可以说，跟踪问责制的最佳方式是准确详细地记录人工智能决策的过程。也就是说，做出决策的过程和数据需要透明，这样，如果出现任何问题，一些第三方审计员能够追溯导致结果的步骤，以找到问题的根源。已经制定了法案和法律来保持这方面做法的透明度。

当然，这种方法本身并不是没有问题。审计并不总是适用于以大数据为特征的人工智能，大数据是极其庞大的数据集，也不总是适用于从事深度学习的系统，这些系统具有大型数据集和复杂的网络。算法的自主性和透明性似乎是一种反比关系——随着这些算法在“学习”和调整方面变得越来越好，理解偏差发生在哪里变得越来越困难。虽然审计对于简单的模型是有效的，但是我们可能需要一种不同的方法来减轻复杂算法的偏差。

另一种减轻偏见的方法是针对人工智能的训练者和创造者。通过让他们意识到自己的偏见，我们有更好的机会将它排除在算法之外。值得注意的是，人类的偏见是存在的，而且很难减轻，因为这是一种进化特征，但我们越来越意识到我们自己的大脑容易受到偏见的影响。总之，算法可以成为减轻制度偏见的一部分——如果我们保持教育、意识、聪明和选择性的话。

“最好的办法是不断努力让文化变得更好，并在文化改善的同时不断更新人工智能来跟踪文化。”乔安娜·布赖森

参考文献:

阿巴特汤姆。、克拉科夫斯基、玛丽娜。“人和机器哪个更公平？”斯坦福工程，2018 年 1 月 31 日。

亚伦·博恩施泰因:“算法正在建立种族主义的基础设施吗？”鹦鹉螺号，2017 年 12 月 21 日。

很聪明，彼得。“在 Tay AI 变成纳粹后，微软终止了她的聊天机器人。” Ars Technica，2016 年 3 月 24 日。

科特兰瑞秋。“偏见侦探:研究人员努力使算法公平。”施普林格自然，麦克米伦出版社，2018 年 6 月 21 日。

想要更少偏见的决定？用算法。”哈佛商业评论，2018 年 7 月 26 日。

舍普，提门。“什么是 Mathwashing？”数学清洗，2018。

夏皮罗，斯图尔特。“数学的客观性。” Synthese ，第 156 卷，第 2 期，2007 年，第 337–381 页。

《男人对于电脑程序员就像女人对于家庭主妇？去偏置单词嵌入。”微软研究院新英格兰，2016。

约纳姑娘。“算法公平性讨论的温和介绍。”走向数据科学，中等。2017 年 10 月 5 日。

感谢阅读！

数据科学的历史

原文：towardsdatascience.com/the-history…

本文中的所有观点都是个人观点，并不属于我现在(或过去)所代表的任何组织的****。****

每当我遇到流行的东西，我通常会回顾历史，看看它是如何演变的。通过回顾历史，它帮助我揭开趋势的神秘面纱，并进行逻辑思考。我对数据科学做了同样的研究，以了解历史上哪些事件直接/间接影响了它在当今商业世界的普及。

Photo by Daniel Tong on Unsplash

我试图总结历史进程中的不同事件，以及它们如何直接/间接影响我们今天拥有的数据科学。

下面的图片提供了我将详细阐述的事件的时间表。

Image by Author | Created in PowerPoint

大体上来说，有来自两个思想流派的人——一方是工业、商业和公司，另一方是工程师、计算机爱好者和学术界。

1955 年，在第二次工业革命的中期，泰勒制或科学管理在工业中被广泛采用。通过他的理论，Taylor 证明了如果对流程工作流进行分析，并从流程中涉及的所有变量中收集数据，我们可以随着时间的推移进行改进，以实现经济效益。大约在同一时间，计算机和人工智能在第二次世界大战后被大量研究，因为它们在减少战争中发挥了至关重要的作用；感谢艾伦·图灵和他的电脑破解了英格玛。

1965 年，惠普开发了世界上第一台台式电脑，在企业方面，彼得·德鲁克引入了“知识管理”的概念。德鲁克的理论提到，以思考为生的人——会计师、顾问和科学家是任何组织最重要的资源。

75s 是学术界认识到数据分析、探索和可视化的重要性的时候，这要归功于统计学家 John Tukey 和他的书《探索性数据分析》。而在工业方面，丰田生产系统采用了建立在泰勒主义原则基础上的改善原则，产生了持续的质量改进，并在整个制造领域获得了很大的影响力。

在过去十年个人电脑突飞猛进之后，操作系统于 1985 年首次亮相。这也是公司人员第一次开始使用像 Excel 和 Word 这样的软件。在这十年中，一些传统企业开始数字化。

互联网诞生于 1995 年，它是影响我们今天的数据科学的关键发明。互联网是这样一个游戏规则的改变者，以至于企业和计算机人员开始一起工作——比以往任何时候都更加紧密。

新千年伊始，网络公司开始在互联网上激增。从花店到餐馆，几乎每一种商业类型都有在线服务，这就像一场淘金热。这些公司中的许多也很快上市，估值飙升，导致网络泡沫迅速破裂。

到 2005 年，随着互联网的十年，情况已经稳定下来，像亚马逊和网飞这样在网络恐慌中幸存下来的公司开始专注于扩大他们的用户群。谷歌和脸书在这十年间也进入了这个市场。由于所有这些企业都是完全数字化的，他们也能够收集数据并调整他们的服务，以“完全”满足客户的需求。杰夫·贝索斯称之为“顾客痴迷”。

在接下来的五年里，随着智能手机的引入,“客户至上”的概念只会越来越强烈。企业能够无缝跟踪特定服务的目标客户。台式机让每家每户都有了一个数字设备，而智能手机则让通过数字足迹追踪每个人成为可能。这进一步为优步、Airbnb、Deliveroo 等按需公司铺平了道路。在“数字”市场中满足消费者的需求。这些公司还通过智能手机应用服务收集了大量数据，以更好地了解客户，并为他/她提供最好的服务。

到 2015 年，数字设备产生了如此多的数据，以至于需要进行大规模数据分析。到目前为止，机器学习算法已经有了很大的发展，GPU 处理使人工智能变得可行。

因此，我们今天拥有的数据科学不是凭空产生的，而是像任何其他持久的事物一样——进化而来的。正如您可能观察到的，数据科学或“从数据中学习”并不是什么“新”东西，它已经存在了几十年，只是形式不同而已。弗里德里希·泰勒的科学管理理论为这一想法埋下了伏笔。如今，当公司追踪他们的客户或员工以改善他们的服务时，一些人将此归因于“数字泰勒主义”。阅读下面的文章，进一步了解—

** [## 数字泰勒主义

弗雷德里克·泰勒是 20 世纪初最有影响力的管理大师。他的“科学原理…

www.economist.com](www.economist.com/business/20…)

总之，几十年来，只有术语发生了变化(或将发生变化),但通过数据进行改进的方法将会盛行。因此，现在不是担心数据科学接管的时候，而是拥抱它的时候，因为它将触及我们生活的方方面面，并将影响我们未来做出的每个决定。**

原载于 2018 年 3 月 31 日【http://ramthilakceo.com】。

超参数调谐指南

原文：towardsdatascience.com/the-hitchhi…

自从我们的第一个深度学习项目出现以来，一年多已经过去了，我们必须继续前进，尽我们所能提供最好的模型。

这样做需要大量的研究，尝试不同的模式，从简单的袋、 LSTM 和 CNN ，到更高级的注意力、 MDN 和多任务学习。

即使我们尝试的最简单的模型也有许多超参数，就模型的准确性而言，调整这些参数可能比我们最终使用的实际架构更重要。

尽管在超参数调整领域有很多活跃的研究(见 1 、 2 、 3 )，但实现这一调整过程却一直没有引起人们的注意。

如果你四处去问人们他们是如何调优他们的模型的，他们最有可能的回答将是“只要写一个脚本来帮你调优就行了”。嗯，说起来容易做起来难…

显然，在实现这样一个脚本时，您应该记住一些事情。

这里，在 Taboola，我们实现了一个超参数调优脚本。让我与你分享我们一路走来学到的东西…

让我们从简单的开始

有时使用 scikit-learn 进行超参数调优可能就足够了——至少对于个人项目是如此。

对于长期项目，当您需要跟踪您已经执行的实验，并且您尝试的不同架构的种类不断增加时，这可能是不够的。

梗概

脚本的第一个版本很简单，但是包含了我们的大部分需求。

这些要求是:

易于运行

您将多次运行这个脚本。因此，应该尽可能容易地指定要运行的实验。我们最终得到了下面的 JSON 格式:

{ "architecture": "lstm-attention", "date-range": [["2017–01–01", "2017–04–01"]], "parameters": { "num_of_attentions": [1, 2, 3], "attention_hidden_layer_size": [32, 128, 256], "attention_regularization": [0.1, 0.01, 0.001] }}

架构:假设您的代码支持多种类型，您想要调优的架构
日期范围:元组列表，每个元组定义将用于训练模型的数据的时间范围。每个实验将在每个日期范围内执行一次
参数:每个超参数的尝试值。我们最初的实现只支持有限的一组值(网格搜索)

该脚本从这个 JSON 中随机生成实验。

我们创建了一个 Jenkins 作业，它在我们的一台配有 GPU 的机器上运行脚本，从而使我们不再需要使用 SSH。

用指标丰富实验

我们的培训流程会生成许多指标，如 MSE、损失和培训时间。你可以选择你想要的，它们会显示在结果中。

将结果保存到云中

结果以 CSV 文件的形式保存在 Google 云存储中，这使我们能够从任何机器上启动脚本，并从我们的笔记本电脑上观看结果。

结果是不断上传的，所以我们不必等到所有的实验完成后才开始检查结果。

模型本身也被保存。

那么到目前为止我们学到了什么？

这第一个实现是最重要的一个。

简单来说，脚本没有为您做任何聪明的事情。它不知道要执行哪些实验——每次运行都必须手动定义 JSON 输入。

在多次运行脚本后，您开始理解哪些值比其他值更有效。这是我们从剧本中得到的最重要的东西之一——对我们的模型有了更深入的理解。

第一次使用这个脚本给我们带来了很大的改进 MSE 提高了 10%以上。

我们确定这是真的吗？

当你运行数百个实验时，最好的实验通常只有微不足道的差异。你怎么知道它有统计学意义？

假设你有足够的数据，解决这个问题的一个方法是在几个日期范围内训练同一个模型。如果一个模型在所有的日期范围内都比其他的好，你可以更有信心它是真实的。

假设今天是六月，你运行脚本。以下是脚本将选择的日期范围:

请注意，如果您在不同的月份运行该脚本，它会选择一组新的日期范围。这一点很重要，因为否则你可能会因为大量的超参数调整而意外地使你的模型过拟合。

我没时间做这个

谁有时间将每个实验运行三次？你可以得到可靠的结果，这很好，但这意味着你最终将运行更少的不同实验。

该脚本的下一版本通过支持新的操作模式解决了这个问题:

仅使用一个日期范围
日期范围仅包含一个月的数据
训练仅限于较少的时期

但是，如果我们使用更多的数据和时期，这些结果与我们会得到的结果相关吗？

为了回答这个问题，我们进行了一些实验，每个实验都使用了从一周到三个月不等的不同数量的数据。我们发现一个月在 MSE 和训练时间之间有一个很好的权衡。

(您是否注意到我们使用了超参数调整脚本来调整超参数脚本？多酷啊。)

为了研究什么是正确的历元数，我们分析了 TensorBoard 上的 MSE。

图中的每一个图都代表一个根据不同数量的数据训练的不同模型。经过 20 个时期后，所有的模型几乎都收敛了，所以就此打住是安全的。

来吧脚本，为我做的工作！

此时，我们决定脚本应该为您选择超参数值。我们从学习率相关的超参数开始:初始学习率、衰减因子、早期停止无改善的时期数等。

为什么是学习率？

它显著影响训练时间。我们应该首先确定一个好的学习率，包括准确性和训练时间，然后再调整其他的
有人建议它以一种比其他超参数更复杂的方式控制模型的有效容量，因此最好从这一点开始。

脚本的新模式使用对我们的模型合理的硬编码值范围。

然后是下一个要求:

下一个版本的脚本就是这么做的:提供一个架构名称，它会自动为您生成实验。您不需要指定任何超参数值。

让我们随机选择

尽管在的某些情况下比随机搜索差，但是网格搜索更容易分析:每个值都被多次实验使用，所以很容易发现趋势。

既然我们已经对什么值更有效有了直觉，是时候实施随机搜索了。这样做有助于脚本找到更好的超参数。

一些最后的想法

在任何机器学习项目的研究阶段，超参数调优都可以手动完成。然而，当您想要将项目提升到下一个级别时，自动化过程是非常有效的。在这篇文章中，我描述了我们在自动化过程中实现的一些小细节。有些可能对你有用，有些可能没用。如果你发现其他令人兴奋的事情对你有帮助，请在评论中留言。

最初由我在 Taboola 工程博客 发表。

因果推理的圣杯

原文：towardsdatascience.com/the-holy-gr…

什么是结构估计？

介绍

结构估计，应用计量经济学的圣杯，这两个词让最勇敢的灵魂感到恐惧。作为一名博士生搞定它，你就走上了通往顶级终身教授职位的道路。

那么神奇的是什么呢？具体来说，它如何胜过通常的因果推断技术，如 A/B 检验、匹配、差异中的差异、工具变量、回归不连续性、固定/随机效应估计等。？

简而言之，答案是外部有效性。

Or pure magic! Source: Walt Disney Giphy

(尤指为开车者设计的) 公路交通图

在这篇文章中，我将告诉你所有关于结构估计的内容。这部分的讨论是基于 Hamish Low 和 Costas Meghir 在计量经济学中对结构模型的使用。

然后，我将使用丽贝卡·戴蒙德和蒂莫西·麦奎德的 NBER 工作论文来说明结构估计的力量: 谁想要他们后院的经济适用房 ？

您将看到丽贝卡和蒂莫西如何能够仅使用租金控制时代的数据，完美地预测剑桥解除租金控制后的房价上涨。纯魔法！

这两篇论文加起来有 91 页。我会把它们改写成轻松的 7 分钟读物给你。

什么是结构估计？

形式上，

完全指定的结构模型对经济参与者的目标及其经济环境和信息集做出明确的假设，并指定在模型中做出哪些选择。我们称这些模型为完全指定的，因为它们允许作为当前信息集的函数的个体优化问题的完整解决方案。

这是一个很大的难题。让我们来看一个例子。

谁想要自己后院的经济适用房？

经济行为者的目标

在这篇论文中，人们在他们的预算内选择最好的地方。形式上，代理人 I 根据他的预算 y 最大化他的效用 U:

其中:

U()是代理人 I 的效用函数。函数形式将在以后详细说明；
y 是代理人 I 的收入；
**代理 I 正在做出的选择:**他可以选择在消费品(c)、房屋(y-c)、房屋类型和邻近地区(X，Y，xi)上花费多少，以及离最近的低收入住房项目(R)的远近。
经济环境由消费者价格(p)、代理商收入(y)和可用住房存量决定。
**信息集:**代理人 I 观察每栋房子(X，Y，xi)的住房和邻里特征；有些是计量经济学家观察到的(X，Y)，有些则不是(xi)

个体最优解

代理 I 的最优解由一组一阶条件表征:

这组一阶条件将代理人 I 的某些住房特征的边际效用(R，X)等同于他为这些特征支付的边际意愿(R，X)。

如何估计结构模型？

此时，估计结构模型似乎是不可能的。毕竟，跟踪所有模型参数已经够难的了！

Estimate what?! Source: Giphy

过去几代计量经济学家正是这么做的——估计所有模型参数，而现代经济学家采取了一种更简化的方法。我们只估计模型的充分统计量。

1。我们再来看看一阶条件的集合:

2。让我们假设效用函数采用以下形式:

其中:

RCI 是租金控制强度；
HH 代表家庭。

我们如何知道我们的效用函数假设是否有意义？只有数据能告诉我们，我们很快就会讲到。

3。重写左侧的第一个订单条件:

4。使用数据估计一阶条件的右侧:

5。让我们对每个家庭的效用函数参数 alpha 进行回溯:

6.该模型预测，剑桥取消租金控制后，房价将上涨这么多:

7.根据数据，房价上涨了这么多:

8。注意这两组数字是多么的相似！

外部有效性，我的朋友:)

Source: Giphy

结构评估的力量

外部效度

在上面的例子中，丽贝卡和蒂莫西几乎完美地预测了剑桥解除房租管制后的房价上涨。使用传统方法很难做到这一点。例如，很难使用任何匹配方法来预测房价，因为租金控制单元与其他单元确实不同。

与自然实验的协同作用

诚然，结构模型确实很复杂，涉及许多假设。为了验证该模式，我们通常将它与自然实验配对，以显示我们的模型产生类似的预测。

反事实

那么为什么不能单纯依靠自然实验呢？

好吧，回想一下，自然实验只得到一个点估计。它告诉我们，在一个非常特定的设定下，治疗效果的大小是多少。

但是假设我们想在一套完全不同的环境下获得治疗效果呢？简单地从一个环境中提取结果，然后不加区别地应用于其他环境，这将是错误的。

我们能做的最好的事情，就是用我们的结构模型来模拟结果。例如，如果我们在富裕社区建设低收入项目，商品房价格会发生什么变化？我们无法回答这个问题，因为大多数现有项目都建在离富人区很远很远的地方。

结构评估的成本:复杂性

结构估计的黑暗面是其纯粹的复杂性。你需要了解你的系统的来龙去脉，并用简洁的数学描述它。没有固定的食谱可以遵循，也没有简单的函数调用——你美丽的头脑会从头开始设计。这就是为什么结构评估如此困难，但却是值得的。

是否值得取决于你自己的需求:

如果你只对在非常稳定的环境中生成预测感兴趣，那么传统的机器学习工具会更合适。
但是如果你对在完全不同的环境下获得治疗效果感兴趣，那么结构估计可能正是你所需要的。

附:你可能喜欢的文章

如果你对因果推理很感兴趣，这里有几篇我写的文章:

赌场总是赢家:蒙特卡洛模拟

原文：towardsdatascience.com/the-house-a…

赌场是怎么挣钱的？诀窍很简单——你玩的时间足够长，输钱的概率就会增加。让我们用一个简单的蒙特卡罗模拟来看看这是如何工作的。

蒙特卡洛模拟是一种用于理解金融、项目管理、成本和其他预测模型中风险和不确定性影响的技术。蒙特卡洛模拟器有助于人们将大多数或所有的潜在结果可视化，从而对决策的风险有更好的了解。

考虑一个假想的游戏，其中我们的玩家“杰克”掷出一个假想的骰子，得到 1 比 100 的结果。如果杰克掷出 1-51 之间的任何数字，赌场赢，但是如果掷出的数字是 52-100，杰克赢。够简单吗？

在模拟结果之前，让我们计算一下房子的边缘。房子边缘显示了赌场在赢得赌注方面的优势。这是赌场从玩家下注中获得的平均利润。

让我们假设杰克在这个游戏中下注 1 美元。

杰克赢的概率= 49/100

赌场获胜的概率= 51/100

玩家的预期利润= 1 *(49/100)-1 *(51/100)=-0.02 =-2%

所以，**我们假想游戏中的房子边缘是 2%。**作为对比，欧洲轮盘最低的房子边缘是 2.7%。简而言之，我们在想象的游戏中比在轮盘赌中有更大的胜算。

现在，让我们在 Python 中模拟不同的场景，以可视化玩家持续下注时的不同结果。

1。导入所需的库

#Import libraries
import random
import matplotlib.pyplot as plt

2。我们需要一个骰子模拟器，它能以均匀的概率分布抛出一个从 1 到 100 的值。让我们用 Python 创建一个函数，如果玩家赢了，它返回“真”,如果赌场赢了，它返回“假”。

#Create function for simulating die roll 
#The die can take values from 1 to 100\. If the number is between 1 #and 51, the house wins. 
#If the number is between 52 and 100, the player wins.def rolldice():

    dice = random.randint(1,100)

    if dice <=51:
        return False
    elif dice >51 & dice <=100:
        return True

3。创建一个模拟赌注的函数。我们需要为函数提供三个参数:

I .总资金:玩家开始的资金(10，000 美元)

二。下注金额:玩家在每场游戏中下注的金额(100 美元)

三。总游戏次数:玩家玩游戏的次数(该值因创建不同的场景而异)

#Define a function for the play which takes 3 arguments :
#1\. total_funds = total money in hand the player is starting with
#2\. wager_amount = the betting amount each time the player plays
#3\. total_plays = the number of times the player bets on this gamedef play(total_funds, wager_amount, total_plays):

    #Create empty lists for :
    # 1.Play_number and 
    # 2.Funds available
    # 3.Final Fund
    Play_num = []
    Funds = []#Start with play number 1
    play = 1
#If number of plays is less than the max number of plays we have set
    while play < total_plays:
        #If we win
        if rolldice():
            #Add the money to our funds
            total_funds = total_funds + wager_amount
            #Append the play number
            Play_num.append(play)
            #Append the new fund amount
            Funds.append(total_funds)
        #If the house wins
        else:
            #Add the money to our funds
            total_funds = total_funds - wager_amount 
            #Append the play number
            Play_num.append(play)
            #Append the new fund amount
            Funds.append(total_funds)

        #Increase the play number by 1
        play = play + 1
            #Line plot of funds over time
    plt.plot(Play_num,Funds)
    Final_funds.append(Funds[-1])
    return(Final_funds)

4。最后运行一个循环调用以上函数，模拟游戏多种场景。要对我们游戏的最终结果有信心，每个场景都会模拟 100 次。

#Call the function to simulate the plays and calculate the remaining #funds of the player after all the bets
#Intialize the scenario number to 1
x=1
#Create a list for calculating final funds
Final_funds= []while x<=100:
    **ending_fund = play(10000,100,5)**
    x=x+1#Plot the line plot of "Account Value" vs "The number of plays"
plt.ylabel('Player Money in $')
plt.xlabel('Number of bets')
plt.show()#Print the money the player ends with
print("The player starts the game with $10,000 and ends with $" + str(sum(ending_fund)/len(ending_fund)))

5。让我们用下面的图表来想象 7 种不同的场景。在每个场景中，杰克下注 n 次。

为了生成多个场景，使用上方的代码块(#4)，但是只修改突出显示的代码(如下所示)来调整玩家下注的数量。****

ending_fund = play(10000,100,**5**)

x 轴:杰克下注的次数

y 轴:每次下注后杰克的账户余额

每张图显示了杰克继续玩游戏时的账户余额。此外，为了找出 Jack 的期末余额，我们将对 100 个不同模拟的余额进行平均。

这个实验的目的是回答一个简单的问题——“如果一个人以 10，000 美元开始，玩这个游戏 n 次(每局下注 100 美元)，平均来说，玩家最后会有多少钱？”

场景 1 - >投注数量:5

场景 2 - >投注数量:10

场景 3 - >投注数量:50

场景 4 - >投注数量:100

场景 5 - >投注数量:500

场景 6 ->投注数量:1000

场景 7 - >投注数量:10000

从模拟实验中，我们可以观察到，如果杰克下注较少，他就有更大的机会盈利(或最大限度地减少损失)。

还可以观察到，在每个场景中损失的金额大约是下注金额的 2%(与房子边缘相同)**。例如，在我们的最后一个场景中，杰克下了 10，000 次注，每次 100 美元。因此，我们预计杰克将损失大约(10，000)(0.02100)，相当于 20，000 美元。

此外，在最后一个场景中，当他玩 10，000 次时，资金变成了负数，即杰克比他开始时输掉了更多的钱(在现实生活中，这意味着杰克输掉了所有的钱)。

总之，房子永远是赢家！

资源:

1.pythonprogramming.net/monte-carlo…

2.math.info/Misc/House_…

在 LinkedIn 上连接。

请找到下面嵌入的 Python 笔记本:

人类连接体和神经网络

原文：towardsdatascience.com/the-human-c…

Photo by Donald Giannatti on Unsplash

最近，我有兴趣了解更多的成像模式，因为我可能很快就会进入这个研究领域。医学成像社区已经取得了许多进步——例如，在 Kaggle 的合作和 NIH 向公众发布图像。

很快，我们将看到机器学习社区在日常医疗保健环境中的影响越来越大(当然，也有自己的一系列挑战)。

鉴于这些进展，我想强调一下您可能会感兴趣的医疗保健成像领域的一个子集，以及更广泛的机器学习社区如何从该领域受益。

连接体

如果你还没有见过这样的例子，那就尽情享受这个非常酷的连接体吧。

Fig. 1: From this paper

这种成像技术让我们能够了解大脑的结构。

当你看整个东西的时候，你可以看到大脑的结构。这些看起来不同的纤维线是主节点之间的边，主节点是白色的大圆圈。

这些节点是大脑中感兴趣的区域或共同的界标。它们之间的连线将节点连接在一起。颜色代表不同程度的连通性。

连接体的构建方式实际上是通过观察大脑内水分子的扩散速率。通常，这种类型的测量在大脑中取一个大小为 X 的盒子，然后我们看一看分子如何在一段时间内在这个盒子中扩散。

然后，这个快照将由一个椭圆体概括，该椭圆体带有那个盒子的平均扩散方向。在下图中，你会发现不同的形状可以定义大脑一小块区域的平均扩散率。

Fig. 2: From this paper

当这些在整个大脑中聚集时，输出看起来像这样:

Fig. 3: From this paper

很酷，对吧？

不同的颜色可以代表大脑特定部分或节点之间的联系。椭圆体的不同方向使我们能够直观地理解扩散是如何在整个大脑中发生的。

您可以跟踪从图像左侧到图像中间再到右侧的轨迹。你可以交易左下角的小曲线。或者甚至在中间与大斑点的固定连接。

然后，它们进一步融合在一起，形成了扩散在大脑中所走的高速公路或共同道路。这些显示了大脑的整体结构。

Fig. 4: From this paper

这些可以被进一步分析，以给我们一些关于大脑如何随时间变化的科学见解，或者找出哪些联系对于特定的神经相关疾病(如帕金森病)是重要的。

我将在另一篇文章中更深入地探讨这个问题，但现在让我们先讨论机器学习。

与神经网络的关系

现在你对连接体的样子有了一个大致的概念，我们可以深入研究我在几篇论文中看到的一种分析。

如前所述，大脑中的主要节点通常被称为感兴趣区域(ROI)，这些是大脑中有许多连接的部分，可能充当正在传递的信息的公共枢纽。这些节点在下图中显示为圆圈。

主节点之间是边，或下图中的线。这些是信息所依赖的节点之间的连接。

如您所见，有多种方法可以描述节点和边的网络。本文使用了一些独特的术语，如模块化和聚类系数等。然而，让我们不要担心那个。

Fig. 5: From this paper

我想展示的是，有一些有趣的特征定义了这些 DTI 的大脑快照图像。比如我们拿紫色的节点来描述一下。

来自报纸:

介数中心性(BC)表示特定节点对于网络通信的重要性，并且由网络中任何两个节点之间必须经过该特定节点的最短路径的数量来概念化。网络中的紫色节点具有很高的介数中心性，因为许多最短路径必须流经它。

这个概念非常容易理解，并且在确定特定的大脑是否退化时，可能会提供很多预测能力。这是定义网络结构和完整性的众多网络特征之一。

然而，如果我们看看神经网络的更广泛的背景，也许我们可以得出一些类比。

我的意思是——如果有不同的神经网络拓扑结构，我们可以用来预测患者患癌症的可能性，或者杂货店实现下个月销售目标的可能性。

这些拓扑结构由人工神经元组成，这些神经元之间可以有强连接和弱连接。除了使我们选择的损失函数最小化的权重之外，我们能想出更好地描述它们的方法吗？

这些对网络的描述会让我们更深入地了解网络中的特征是如何相互关联的吗？随着时间的推移，网络如何随着训练数据的增加或减少而变化？或者甚至允许我们在 3D 空间中可视化连接，以理解这些“黑色盒子”。

这个清单可以一直列下去。

也许这些想法已经存在了，我还没有碰到它们或者看到它们被有意义地使用。请在评论中告诉我。

感谢阅读。

人类工程

原文：towardsdatascience.com/the-human-p…

印第安纳·琼斯寻回“失落的方舟”后，它被军方情报人员拿走了，他们坚持说它正被“顶尖人物”研究着相反，约柜被锁在一个木箱里，然后被推到一个仓库的后面，在那里，它被原封不动地放在数百万个装满秘密的木箱中。

可悲的是，今天许多社会科学论文也注定了类似的命运。

“当你决定你想在心理学、神经科学或社会学中研究什么时——你找到 300 个人，你把数据带回实验室，你写一篇关于它的论文……然后你把它交给 NIH，在那里没有人会再看它，”纽约大学(NYU)决策研究学院(ISDM)主任保罗·格里姆彻博士说。

但是，如果有一种方法可以撬开所有的板条箱，并以一种同时揭示一切的方式进行研究，并且在这样做的过程中，发现一些以前看不到的东西，会怎么样呢？我们能找回失落的方舟吗？

今年秋天，格里姆彻博士、卡夫利基金会和 ISDM 将开始为人类项目招募人员——这是一项为期 20 年、涉及 10，000 人的研究，致力于创建一个包含人类经历各个方面的庞大数据库。这项研究的规模比以往任何一次都要大。如果它成功了，就有可能永远改变科学研究。

人类项目是一架远离太空、面向人类的望远镜。它是对人类健康和行为的完整理解的探索。这是先进技术(如生物样本分析、地理信息系统和智能手机)和纵向调查研究最高学术标准的结合。

人类项目打算回答的主要问题是关于健康的。今天的研究人员明白，哮喘、糖尿病、高血压、肥胖症或抑郁症的原因不仅仅是一个。有成千上万个相互作用的生物、文化和环境因素结合在一起，导致一个人成为这样或那样的人。人类项目打算一次检查所有这些因素，并认识到这些疾病的治疗可能是行为、社会和医学干预的结合。

“我们知道的足够多，知道我们需要更多的数据来更好地了解，”Glimcher 博士说。

一旦参与者被随机招募参加研究，他们必须通过多次信息会议，以保证他们被适当告知并能够给予完全同意。然后，他们完成一项详尽的体检。什么都要检测——血液、尿液、听力、肺活量、智商。每隔一段时间，他们会再次接受测试。最后一部分是一个简单的智能手机应用程序。这个应用程序监控日常生活的某些方面，例如一个人在哪里，或者一个人走了多少步(顺便说一下，这种数据已经由电话公司存储并出售给其他公司)。参与者还使用该应用程序每天回答简单的生活方式问题，这意味着参与者每周只有几分钟的时间。

我们的目标不仅是让招聘过程尽可能简单、轻松，而且要安全。格里姆彻博士和人类项目团队的其他成员知道，如果数据没有安全存储，他们就有可能出现丑闻，甚至更糟:未来的政策会限制这种类型的科学研究。

为了确保数据的安全性，科学家只有在经过广泛的批准过程后才能访问这些数据。他们必须亲自前往数据中心，通过一系列身份检查，并且全程受到监控。一次只能访问部分信息，因此只能获得回答特定问题所需的抽象级别的数据。所有的数据都不能带出中心。

ISDM 的首席科学家汉娜·拜尔博士说:“我们有目的地让研究人员在使用数据时感到痛苦，但这是人们首先信任你的数据所必须付出的代价。”。

格里姆彻博士受到启发，以类似斯隆数字巡天获取天文数据的方式来获取数据:“20 年前，天文学家会在望远镜上记录时间，并四处寻找类星体，直到他们找到一个类星体——也就是说，直到詹姆斯·古恩博士认为这完全是错误的方法。”这位普林斯顿大学的天体物理学教授开创了斯隆数字巡天计划，该计划使用阿帕奇角天文台的广角光学望远镜缓慢地扫视天空，并一次性捕捉尽可能多的信息。其结果是一个庞大、全面的数据库，其中记录了超过 5 亿个对象的观察结果。

天文学家可以很容易地回顾数字斯隆巡天，并说，“这是改变游戏的一个。”回顾人类基因组计划，生物学家也可以说同样的话，人类基因组计划第一次为成千上万的生物体创建了一个基因信息数据库。

有一天，社会科学家可能会对人类工程说同样的话。

人类工程中最有价值的信息可能是无法预测的。在 1948 年弗雷明汉研究启动之前，人们普遍认为吸烟不仅完全无害，甚至是健康的。然后，国家心脏、肺和血液研究所从马萨诸塞州弗雷明汉招募了数千名参与者，参加一项涉及多年常规体检和访谈的研究。事实上，这么多年来，弗雷明汉研究一直持续到今天——有了第三代参与者。

格里姆彻博士说:“弗雷明汉的几年后，研究人员惊恐地发现，香烟正在杀死每个人。“他们绝不会猜到这一点。”

也许，在人类工程进行多年后，我们还会发现一些将彻底改变我们对人类健康和行为的理解的东西。也许我们最终会找到失落的方舟。

演员评论家背后的想法以及 A2C 和 A3C 如何改进他们

原文：towardsdatascience.com/the-idea-be…

是时候进行一些强化学习了。这一次我们的主要话题是行动者批评算法，它是几乎所有现代 RL 方法的基础，从最近策略优化到 A3C。因此，要理解所有这些新技术，你应该很好地理解什么是演员-评论家以及他们是如何工作的。

但是不要着急。让我们回顾一下以前的知识。您可能知道，有两种主要的 RL 方法:

基于值:他们试图找到或接近最优的值函数，它是一个动作和一个值之间的映射。值越高，动作越好。最著名的算法是 Q 学习和它的所有改进，如深度 Q 网络，双决斗 Q 网络等
基于策略:基于策略的算法，如 Policy Gradients 和 REINFORCE，试图直接找到最优策略，而不需要 Q 值作为中间人。

每种方法都有其优点。例如，基于策略的方法更适合连续和随机的环境，具有更快的收敛速度，而基于值的方法更有效和稳定。查看我以前关于强化学习的帖子了解更多细节。

当这两个算法家族在科学界建立起来时，下一个明显的步骤是…试图将它们融合。这就是演员评论家的诞生。演员批评家的目标是利用基于价值和基于政策的所有好东西，同时消除它们所有的缺点。他们是怎么做到的？

主要思想是将模型一分为二:一个用于基于状态计算动作，另一个用于产生动作的 Q 值。

参与者将状态作为输入，输出最佳动作。它通过学习最优策略(基于策略)来控制代理的行为。另一方面，评论家通过计算价值函数(基于价值)来评估行动。这两个模型参与了一个游戏，随着时间的推移，他们都在各自的角色中变得更好。结果是，整体架构将比单独的两种方法更有效地学习玩游戏。

这种让两个模型相互交互(或竞争)的想法在最近几年的机器学习领域变得越来越流行。例如，考虑生成性对抗网络或可变自动编码器。

但是让我们回到强化学习。演员兼评论家的一个很好的类比是一个小男孩和他的母亲。孩子(演员)不断尝试新事物，探索周围的环境。他吃它自己的玩具，他摸热烤箱，他用头撞墙(我的意思是为什么不)。他的母亲(评论家)看着他，或者批评或者称赞他。这个孩子听他妈妈告诉他的话，并调整他的行为。随着孩子的成长，他学会了什么行为是好的或坏的，他基本上学会了玩一个叫做生活的游戏。这和演员兼评论家的工作方式完全一样。

执行器可以是一个函数逼近器，如神经网络，其任务是为给定状态产生最佳动作。当然，它可以是全连接神经网络或卷积网络或任何其他网络。批评家是另一个函数逼近器，它接收环境和行动者的动作作为输入，将它们连接起来并输出给定对的动作值(Q 值)。让我提醒你一下，Q 值本质上是未来的最大回报。

这两个网络的训练是分开进行的，它使用梯度上升(找到全局最大值而不是最小值)来更新它们的权重。久而久之，演员正在学习产生越来越好的行动(他开始学习政策)，而评论家在评估这些行动上越来越好。重要的是要注意，权重的更新发生在每一步(TD 学习)，而不是在事件结束时，与策略梯度相反。

事实证明，演员评论家能够学习大型复杂的环境，他们已经在许多著名的 2d 和 3d 游戏中使用，如《毁灭战士》、《超级马里奥》等。

你累了吗？因为我现在开始变得兴奋，我计划继续下去。这是一个很好的机会来谈论两个非常受欢迎的演员-评论家模型的改进，A2C 和 A3C。

最佳演员兼评论家(A2C)

什么是优势？事实上，q 值可以分解成两部分:状态值函数 V(s)和优势值 A(s，A):

Q(s，a)= V(s)+ A(s，A)= A(s，a) =Q(s，A)-V(s)= A(s，a)= r+ γV(s_hat) -V(s)

优势函数捕捉的是在给定状态下，一个行为与其他行为相比有多好，而价值函数捕捉的是在这种状态下有多好。

你猜这是怎么回事，对吧？我们没有让批评家学习 Q 值，而是让他学习优势值。这样，对一个行动的评估不仅基于这个行动有多好，还基于它还能变得更好。优势函数的优势(看到我在这里做了什么吗？)在于，它降低了策略网络的高方差并稳定了模型。

异步优势行动者-批评家(A3C)

DeepMind 在 2016 年发布的 A3C 在科学界引起了轰动。它的简单性、健壮性、速度和在标准 RL 任务中获得更高的分数使得策略梯度和 DQN 过时了。与 A2C 的关键区别在于异步部分。A3C 由多个独立的代理(网络)组成，它们有自己的权重，与环境的不同副本并行交互。因此，他们可以在更短的时间内探索国家行动空间的更大部分。

代理(或工人)被并行训练并定期更新全球网络，该网络保存共享参数。更新不是同时发生的，这就是异步的来源。在每次更新之后，代理将它们的参数重置为全局网络的参数，并且继续它们的独立探索和训练 n 步，直到它们再次更新它们自己。

我们看到，信息不仅从代理流向全局网络，而且在代理之间流动，因为每个代理通过全局网络重置其权重，全局网络具有所有其他代理的信息。聪明吧？

回到 A2C

异步的主要缺点是一些代理会使用旧版本的参数。当然，更新可能不是异步发生的，而是同时发生的。在这种情况下，我们有一个改进版本的 A2C，有多个代理，而不是一个。A2C 将等待所有代理完成其网段，然后更新全局网络权重并重置所有代理。

酪总有但是。有些人认为，如果代理是同步的，就没有必要有很多代理，因为它们本质上没有什么不同。我同意。事实上，我们所做的就是创建环境的多个版本和两个网络。

第一个网络(通常称为 step model)并行与所有环境交互 n 个时间步，输出一批体验。根据这些经验，我们训练第二个网络(训练模型),并用新的权重更新步长模型。我们重复这个过程。

如果你对 A2C 和 A3C 的区别感到困惑，看看这个 Reddit 的帖子

https://medium . freecodecamp . org/an-intro-to-advantage-actor-critic-methods-let-play-sonic-the-hedgehog-86d 6240171d

我试图在不使用太多数学和代码的情况下给你一个所有这些技术背后的直观解释，因为事情会更复杂。然而，它们并不是难以实现的模型，因为它们依赖于与政策梯度和深度 Q 网络相同的思想。如果你想建立你自己的演员兼评论家模型来扮演毁灭战士，看看这个。我认为你应该。只有我们自己建造这个东西，我们才能真正理解这个模型的所有方面、技巧和好处。

顺便说一下，我借此机会提到 Deepmind 最近开放源代码的库，名为 trfl 。正如他们所声称的，它揭示了实现强化学习代理的几个有用的构件。我会试着告诉你更多的细节。

在 2018 年，结合策略和基于值的方法的想法现在被认为是解决强化学习问题的标准。大多数现代算法依赖于演员评论家，并将这一基本思想扩展到更复杂的技术中。一些例子是:深度确定性策略梯度(DDPG)、近似策略优化(PPO)、信任区域策略优化(TRPO)。

但是不要心急。我们会及时覆盖它们…

如果你有任何想法、评论、问题或者你只是想了解我的最新内容，请随时与我联系LinkedinTwitterinsta gramGithub或者****

要阅读整个深度强化学习课程，学习所有你需要知道的关于人工智能的知识，去 这里。

原载于 2018 年 11 月 17 日sergioskar . github . io。**

递归对层次结构建模的重要性

原文：towardsdatascience.com/the-importa…

将这篇高水平的人工智能研究论文总结成字节大小的片段

Photo by Nathaniel Shuman on Unsplash

这是对

递归对层次结构建模的重要性

由柯川、阿里安娜、&T4【克里斯托夫】蒙兹在这里发现:

aclweb.org/anthology/D…

两句外卖

递归神经网络(RNNs)，如长短期记忆网络(lstm)，目前有性能限制，而更新的方法，如完全注意网络(FANs)显示出替代 lstm 的潜力，而没有这些限制。因此，作者开始使用标准化方法来比较这两种方法，并发现当应用于语言的层次结构时，LSTMs 在预测准确性上普遍超过 FANs。

rnn 具有固有的性能限制

有一段时间，RNN 似乎在自然语言处理(NLP)领域掀起了一阵风暴(大约从 2014 年到 2017 年)。然而，我们最近开始意识到 RNN 的局限性，主要是它们“低效且不可扩展”。虽然通过使用更专业的处理硬件(如现场可编程门阵列)有望克服这些限制，但解决方案至少还需要一代硬件。这意味着值得探索其他选择，如卷积神经网络(CNN)或变压器，用于文本理解，看看我们是否可以使用另一种更适合当前硬件现状的技术来实现类似或更好的结果。

LSTM 变压器与风扇变压器的性能比较

由于这种需要，本文作者选择了两种有前途的自然语言理解方法(NLU)进行基准测试，使用客观标准比较两者之间的结果。具体来说，他们通过测试主语和动词之间的关系，以及在逻辑推理任务中测试模型，来衡量模型对语言的层次性理解程度。

当谈到 NLP/NLU 时，递归神经网络，更具体地说，长短期记忆网络是黄金标准。因此，作者从那里开始作为基线，然后将其比作一个完全注意力网络:一个来自尖端论文的新模型架构 注意力是你所需要的全部 *。*LSTM 是一个连续的框架，一次接收一个输入，例如一次一个单词地阅读一个句子；它不同于其他 rnn，因为每个节点在更长的时间内记住依赖性。参见这篇由 Rohith Gandhi 撰写的帖子，了解 RNNs 和一些流行变体的解释。

虽然 LSTM 比其他 rnn 有更长的长期记忆，因此在 LSTM 是长的，但当相关数据点之间有很大的距离时，如下一个句子中的主语和动词，它们仍然会很困难。此外，由于 LSTMs 的方向性和在每个时间步长对其单元状态的一致调整，当句子的前面部分的上下文依赖于句子的后面部分的信息时，LSTMs 往往会有问题。Rohith 在上面的帖子中举了一个例子:

“他说，泰迪熊正在出售”和“他说，泰迪·罗斯福是一位伟大的总统”。在上面的两个句子中，当我们看到单词“泰迪”和前面的两个单词“他说”时，我们可能无法理解这个句子是指总统还是泰迪熊

进入 FAN transformer，它通过一次查看整个输入(如整个句子)而不是按顺序查看来解决这些问题，它具有一个注意力层，可以帮助保留相关数据点之间的上下文，无论距离远近。除了这些优势，FAN 架构是高度并行化的，这有助于它克服或避免 RNNs 的上述性能限制。

The difference in the architectures can be seen by the way information flows through the nodes (indicated with orange arrows). This graph was originally included in the subject paper.

目前，句子嵌入模型的技术状态是具有注意层的双向 LSTM (bi-LSTM ),它是在这篇主题论文发表之后发表的，但是 bi-LSTM 和注意层在这篇论文的发布之前已经得到了很好的发展。双向 lstm 基本上是两个 lstm(一个从左到右阅读文本，另一个从右到左阅读文本),它们比较笔记以进行集体预测。关注层与上面针对粉丝描述的类似，但是在 RNN 中，它位于模型的连续部分之外，允许在时间步长之间保留更多的上下文。作者选择使用普通的 LSTM，没有这些升级(解决了前面提到的所有缺点，除了并行化)，但这并不重要，因为 LSTM 仍然比风扇变压器实现了更好的精度。

为什么要分等级？

虽然*的《注意力是你所需要的全部》*的论文关注的是一般语言到语言的翻译性能，但这篇论文的作者选择研究模型对语言层次的理解。层次对于真正理解句子的意思至关重要，也是达到接近人类水平的 NLU 的必要步骤。这里有一些例子突出了理解等级的困难，即使对人类来说也是如此，以及它如何改变句子的意思，这些例子来自雷切尔·塔曼对这篇论文的演讲:

“我看见了那个拿着望远镜的人”

我把钥匙放在架子上，桌子上，沙发旁边，书桌旁边……”

测试主语/动词一致性

This diagram was originally included in the subject paper.

确保模型理解层次结构的一个重要方法是，确保它预测给定单/复数主语的适当单/复数动词。上面的图表显示了一个示例句子，包括输入和动词复数如何用于训练模型，以及如何用于测试预测准确性。

在这项任务中，LSTM 在 3 项测试中表现优于风扇，在第 3 项目标上与风扇持平。

These graphs were originally included in the subject paper.

注意，上面提到的“距离”是主语和动词之间的字数。而“吸引子”是主语和动词之间的名词数量，这可能会扰乱模型对什么词是主语的理解。雷切尔举了另一个例子:

总线总是来得晚。|吸引子= 0

破窗的公交车总是来得晚。|吸引子= 1

测试逻辑推理

为了避免过于关注使用样本文本可能引入的微妙之处和变化，作者利用了 Bowman et al. (2015b) 的一种简化语言，仅使用六种单词类型、三种逻辑运算符和一些符号来执行这项任务。他们使用基于规则的系统生成训练和测试数据集，以确保数据的 100%准确性。虽然文中的字母和符号可能看起来没有多大意义，但这个示例应该有所帮助:

These examples were originally included in Bowman et al (2015b).

These graphs were originally included in the subject paper.

再一次，我们看到普通香草 LSTM 匹配或超过风扇在所有帐户。请注意， n 是等式左侧的运算符数量。

那么，为什么 LSTM 是明显的赢家呢？

这篇论文不敢回答甚至探究为什么会观察到这些结果。他们很好地解释了他们的过程，并详细说明了用于可重复性的超参数，但他们似乎有意避免超越纯粹的经验主义。此外，他们的代码是干净的、可读的和有文档记录的，所以你可以自己尝试:github.com/ketranm/fan…

一些理论可以解释这些结果:

LSTMs 是一种经过多年研究的高度精细的模型架构，而风扇变压器现在大约有一年的历史，仍然处于研究的前沿。因此，也许为网格搜索选择的超参数超出了这项任务中粉丝的最佳范围。
也许 LSTM 的序列性本质上更符合人类语言的序列性本质。毕竟，我们说话和写作是按顺序进行的。
事实上，粉丝可能更适合于语言翻译这样的任务，而 LSTMs 更擅长于理解语言的结构。

进一步探索这些结果的一些有趣机会可能包括调整变压器(如尝试加权变压器和/或试验更多超参数)或添加第三种架构进行比较，如 Convs2S 一种基于卷积神经网络的框架。

从理论上讲，一个完全集中注意力的网络转换器似乎在所有方面都应该胜过一个简单的长期短期记忆网络，但是通过彻底的测试，情况似乎并非如此。虽然我们应该继续研究和调整球迷探索这一新的选择，我们不应该折扣古老的 LSTM 只是还没有。请阅读文件了解更多详情。

如果你对这类事情感兴趣，并且你在西雅图地区，我强烈建议你参加普吉特湾编程 Python (PuPPy) Meetup 参加我们每月一次的机器学习(AToM)高级主题讨论之夜，这激发了我写这篇文章的灵感(感谢瑞秋·塔曼，她最近在本文上做了一个的精彩演讲)。如果你不在这个地区，我建议你在任何地方寻找，甚至开始做一些类似的事情。

这种类型的文章是我将要做的一件新事物，产生于明显缺乏平易近人的内容，这些内容可以迅速告知任何人关于前沿人工智能研究的状态，并有一些背景，以便在上下文中看到它。因此，我期待着听到您对本文或讨论主题的任何反馈或问题，无论是在这里还是在社交媒体上。欢迎联系我(只要告诉我你看到了这篇文章)->

twitter.com/theNathanie…

linkedin.com/in/theNatha…

臭名昭著的因果关系与相关性

原文：towardsdatascience.com/the-infamou…

Figs. 1 and 2: Both pictures from The Guardian

因果关系和相关性。

我们一生中听到的这两个词数不胜数。相关性已经成为被认可的两者的兄弟，这已经被宣扬了很多年了。

另一方面，因果关系面临着许多困难时期。因果关系是打开实验之门的钥匙，是神秘背后的解释。但是相关性是一个更简单的结论，它仅仅表明有一类钥匙有可能打开这扇门。但仅此而已。

我们可以回顾历史，了解我们是如何处理这些麻烦的。

吸烟导致肺癌的观点被激烈地争论了多年，没有结果。当然，怀疑论者对混淆变量有他们的观点——也许有一种与肺癌相关的基因碰巧也存在于吸烟者身上。这种可以解释吸烟和肺癌之间关系的不确定变量的来回变化，恰恰证明了我们描述因果关系的语言是多么年轻。

这进一步证明了混淆相关性和因果性是多么容易。相信来自相关研究的任何说法是多么的不可能。

但是我们仍然求助于相关性——可靠的 r 值和邻近的表亲 r 平方——来让我们窥见一个变量如何影响另一个变量。但是如果我们说 x 导致了 y，那我们就是在犯罪。

你持怀疑态度的朋友和同事会问:

你怎么能这么肯定？

有大量的研究发现其他变量也会导致 y。你如何解释这一点？

一定有办法出去的。

这是我通过阅读朱迪亚·珀尔的《为什么》这本书，以及通过与同龄人讨论这些话题而学到的，当我提出这种事情时，他们不会疯狂地看着我。

所以，我们需要做的是开始寻找因果关系:

首先我们需要开始从统计 101 课程中挣脱出来，这些课程是我们在学校几十年来一直珍视的。我们不应该害怕“因果关系”这个词——因为根据因果关系做出决定是我们的天性。

这就是为什么你的母亲告诉你去做文化上接受的例行公事来帮助你的普通感冒消失。因为它以某种方式起了作用，而且这种知识代代相传。

这可能是一个不好的例子(因为做完这些仪式后你可能仍然会生病)，但你明白我的意思。

其次，我们需要小心我们用机器学习算法计算的相关性。许多人已经证实，数据中可能存在固有的偏见——尤其是在决定影响现实生活的事情时。

立即想到的是确定某人是否有罪，以及给病人推荐什么样的治疗方法。让数据为我们说话是非常诱人的，但让我们给自己一些信任。我们也可以在数据的噪音中找到意义。

第三，我们需要开始寻找抓住问题本质的方法。仅仅把一堆变量扔进锅里，运行一个算法来告诉我们什么是重要的，并从预测中获益是不够的。

这本书强调绘制因果图，以真正理解变量之间的关系。我们可以在另一篇文章中对此进行更深入的探讨，但总体思路是:

以 X 导致 Y 的形式建立你的假设
列出你认为与问题相关的所有变量
画箭头指出这些变量是如何相互关联的

Fig. 3: From ResearchGate

一旦你有了大概的概念，你就可以开始在一系列问题上运用这个概念。这感觉就像儿戏，但它对提高你对你试图解决的问题的理解有巨大的好处。

让我们共同努力，开始理解支配我们今天试图解决的问题的潜在规律的旅程。医疗保健。社会公正。教育。不公平。这些都需要因果关系的语言来推动我们今天所知道的边界。

感谢阅读。

现象先入为主对数据分析的影响:让数据成为你的向导

原文：towardsdatascience.com/the-influen…

数据分析是一个不断发现的过程(Bobgen & Taylor 1975，第 1 页)。研究人员逐渐意识到要分析的数据，并利用不同的过程来分析它们(Gibbs 2012，第 4 页)。数据分析描述了不同观察者“看到”的世界，并试图解释他们的行为(Dey 1993，第 37 页)。然而，困扰许多学者的一个正在进行的辩论是，研究人员如何避免受自己先入之见的影响，从而提供对情况的无偏见的描述。Dey (1993 年，第 233 页)认为，仔细检查证据对于确保分析的“完整性”非常重要。在这篇短文中，我们反思了上述争论；首先，我们介绍了扎根理论及其原理(Loonam 2014，第 50 页)，其次，我们讨论了扎根理论遇到的一些批评(Bryman 2012，第 574 页)，最后，我们提供了研究人员如何避免影响数据分析的指南。

扎根理论是指从定性研究数据中产生的理论(Layder 1982，第 104 页；Mayer 2015，p.60)，并由 Glaser 和 Strauss 在其名著《扎根理论的发现:定性研究的策略》(Glaser & Strauss 1967)中提出。扎根理论的中心焦点是从数据中归纳出一种新的理论，探索一种知识有限的现象(Turner 1983，第 333 页)。正如施特劳斯和科尔宾(2012，第 272 页)指出的:

“当我开始时，我不知道它会走向何方。我让数据引导我”。

这不同于测试从特定理论产生的假设的传统科学方法(Gibbs 2007，第 50 页)，并被视为对 20 世纪 60 年代的传统立场的反应，即研究应该具有“先验”理论取向(Bryant 2002，第 28 页；罗布森 2011 年，第 161 页)。Goulding (2006)认为扎根理论就像“符号互动论”，它规定研究人员进入他们的主题世界，以了解他们的互动。它还被理解为一种进行研究的策略，为产生理论提供了许多灵活的过程(Robson 2011，第 162 页)。

扎根理论主要在研究过程中发展，是数据分析和数据收集不断相互作用的产物(Strauss 和 Corbin，1990)。与其他方法不同，它有几个独特的特点。它使用多种方法进行数据收集和数据分析，在两者之间进行多次迭代，从而实现对世界的“反思和真实”呈现(Loonam，2014 年，第 51 页)。数据分析通常由三组编码组成；最初有开放编码和选择性编码(Glaser & Strauss 1967)以及后来增加的轴向编码(Flick 2009，第 307 页；科尔宾&斯特劳斯 2012a)。这允许对数据类别进行持续的比较(Corbin & Strauss，2012 年 c，第 65-87 页)。这是通过迭代概念化实现的，需要研究者的解释来推导理论(Robson 2011，第 481–484 页)。当达到“理论饱和”且没有新的数据或理论出现时，该过程结束(Loonam 2014，第 51 页)。

然而，扎根理论的发现采取了不同的观点，创始人创建了不同的思想流派，并出现了一些批评。这种分歧的出现是因为 Strauss & Corbin (2012 年)主要集中在系统和复杂的编码技术上，非常强调条件、策略和结果(Goulding 2006 年，第 47 页)。此外，导致分歧的另一个批评是，扎根理论将规定类别的类型作为理论的组成部分，这有时可能不适合某些研究(Robson 2011，第 162 页)。Glaser (1992)认为扎根理论不仅仅是一种带有许多严格和令人困惑的规则的潜在方法。他认为，Strauss & Corbin (2012)的方法冒着研究者在数据中引入先入之见的风险，这似乎更像是强迫而不是理论的出现(Glaser 1992，第 104-123 页)。

进一步的批评是，这种方法是有偏见的，因为它描绘了研究者的观点。从一组数据中得出的理论大多是研究者想要“看到”的(Loonam 2014，第 54 页)。因此，在数据分析和数据收集阶段，研究者有偏见的先入之见可能被引入该过程。然而，研究者可以通过客观地遵循扎根理论原则来克服这一点，如恒定比较原则。这意味着通过数据不断地比较和推断解释(Goulding 2006，第 164 页；Loonam 2014，第 54 页；罗布森 2011 年，第 162 页)。此外，没有一些已有的文献和理论假设就不可能从事研究的论点也是成立的(Robson 2011，第 162 页)。在扎根理论的最初基础中，创始人试图让研究人员远离文献，因为这将在他们收集和分析数据时产生先入之见(Glaser & Strauss 1967)。然而，每个研究人员都带来了特定领域的敏感知识，这既增加了先入为主的可能性，也有助于从数据中形成理论(Corbin & Strauss 2012a，第 49-51 页)。

总之，让数据引导你是一种“开放”的数据处理方式(Corbin & Strauss 2012b，第 195-229 页)。研究者可以通过思想开放、理解自己的情绪和一定程度的自我意识来避免引入先入之见(Simmons 2010)。研究人员需要通过耐心和坚持来接受认知模糊，并通过不断学习的过程在专业和个人发现的旅程中坚持下来。对于研究者来说，重要的是理解解释和概念化过程中所涉及的内容(James 2012，第 563 页)，并拥有“创造性的理论想象力”(Corbin & Strauss 2012a，第 98 页)。

参考资料:

鲍勃根和泰勒，S.J .，1975 年。定性研究方法导论:社会科学的现象学方法。

布赖恩特，2002 年。重新接地接地理论。《信息技术理论与应用杂志》，第 25–42 页。

布瑞曼，2012 年。社会研究方法，牛津大学出版社。

科尔宾，j .和斯特劳斯，2012 年 a。定性研究基础:发展扎根理论的技术和程序，SAGE 出版物。

科尔宾，j .和斯特劳斯，2012 年 b。阐述分析。在定性研究的基础:发展扎根理论的技术和程序。第 195-229 页。

科尔宾，j .和斯特劳斯，2012 年。定性数据分析策略。定性研究的基础:发展扎根理论的技术和程序，第 65-87 页。

戴伊岛，1993 年。定性数据分析

美国弗利克大学，2009 年。定性研究导论。圣人，第四

Gibbs，C.G.R .，2007。主题编码和分类。在分析定性数据。第 38-56 页。

吉布斯，2012 年。定性分析的本质。在分析定性数据。第 1-10 页。

格拉泽，学士，1992 年。接地理论分析基础:涌现与强迫

格拉泽，B.G .和施特劳斯，A.L .，1967 年。扎根理论的发现:定性研究的策略

古尔丁，2006 年。扎根理论:管理、商业和市场研究者实用指南

詹姆斯，2012 年。寻求分析想象:对解释定性数据过程的反思。定性研究，13(5)，第 562–577 页。

雷德博士，1982 年。一个建设性的批评。《社会行为理论杂志》，第 12 卷第 1 期，第 103-122 页。

Loonam，2014 年。走向扎根理论方法论:管理学者的思考。爱尔兰管理杂志，33 卷 1 期，第 49 页

缅因州迈尔，2015 年。侧重于定性数据分析的定性研究。国际销售杂志，零售&营销，4(9)，第 53–67 页。

罗布森，2011 年。真实世界的研究。版。布莱克威尔出版社。马尔登，第 1–608 页。

西蒙斯，2010 年。那是一个真实的理论还是你编造的？教授经典的扎根理论。扎根理论综述，9 卷 2 期，第 15–38 页。

特纳，学士，1983 年。扎根理论在组织行为定性分析中的应用。管理研究杂志，第 20 卷第 3 期，第 333-348 页。

意义的渺小

原文：towardsdatascience.com/the-insigni…

统计学的重要性在研究界和其他领域都有一种神奇的地位。这种立场是没有根据的，对这种立场的信任是被严重误导的。如果你不相信我，我能理解。所以我不唠叨了，让我们做个小实验，好吗？让我问你以下问题:

假设原假设为真；得到 p 值> 0.5 的概率有多大？

好好想一想。；)你说完了吗？很好。答案是这样的:是 50%。等等什么？是的，是真的。获得大于 0.5 的 p 值的概率为 50%。但是为什么呢？我来告诉你为什么！

零假设下 p 值的概率分布是均匀的！

这意味着你得到 p 值 0.9999 的概率和得到 p 值 0.0001 的概率是完全一样的。原则上这一切都很好，除了一点点恼人的做法，将这解释为零假设为真的概率！没有什么比这更偏离事实了。将数据的可能性解释为假设为真的概率，从而陈述P(D|H0)=P(H0 |D)是一种逻辑谬误。不，不，你说；那肯定不是真的！的确如此。但别让我用数学和文字说服你。我宁愿给你看。

逻辑谬误

在 R 的奇妙统计语言中，有一个很好的小测试叫做夏皮罗-维尔克正态性测试，它基本上，嗯，测试正态性。本例中的零假设 H 0 是指待测样本来自一个正态分布y∩N(μ， σ )。因此，为了拒绝零假设，我们需要一个小的 p 值。看在过去的份上，让我们要求这个值小于 0.05。首先，我将从三个具有零均值和单位方差的相同正态分布中生成 1000 个样本。它们如下所示。

Probability densities for three independent Gaussian distributions with zero mean and unit variance.

正如你所看到的，它们确实是高斯分布，或多或少是相同的。现在我提议做一个实验。让我们从相同的高斯分布中选择 5000 个实现的样本集，每个样本集中有 100 个样本。然后，我们将对每组数据进行夏皮罗检验，然后绘制出所有 p 值的分布图。记住:在这种情况下，零假设是正确的，因为我们知道所有的样本都来自于y∽N(0，1)分布。

A simulation of p-values calculated on data sets generated under the null hypothesis which clearly states that the p-values are uniformly distributed even when the null hypothesis is true.

对于那些思维敏捷的人来说，你现在可以看到，即使我们直接从高斯分布中采样，然后试图检测它是否来自高斯分布，我们也没有得到任何信息。我们得到的只有“伙计，我真的不知道。它可能是任何东西。”这当然不是很有帮助。我之所以这么说，也是因为在零假设下，p 值为 0.001 和 p 值为 0.999 的概率相等。因此，在这些测试之后，我们不能断定生成分布是高斯分布。事实上，我们能得出的结论很少。然而，我们可以说:

我们无法在 5%的显著性水平上成功反驳来自高斯分布的数据的零假设。

但这也是我们所能说的。这并没有使数据更有可能真的来自于高斯分布。同样，在这种情况下，与 p 值为 0.1 相比，p 值为 0.999 并不会使其更有可能来自高斯分布。现在我已经听到反对的人在喊“好吧，那么你是说统计测试是无用的？”。事实上，我不是这个意思。我要说的是，他们是狡猾的混蛋，必须如此对待。所以为了支持我最后的陈述，让我们来看一个场景，在这个场景中，测试确实成功地反驳了一些东西！

成功的例子

在下面的例子中，我们重复了前面的实验，但是用均匀分布代替了生成分布。生成的 p 值如下图所示。

An example of a successful application of the null Hypothesis testing.

正如你可以明显看到的，在这种情况下，零假设一直被反驳，吹嘘大多数 p 值低于 0.05。这张图表解释了这些测试的受欢迎程度。在分布明显不是正态分布的情况下,夏皮罗维尔克测试和许多其他人成功地宣布，这个数据是由高斯分布产生的可能性极小。

浅谈假设检验

让我们回到假设为真的可能性与概率的陈述。我陈述了P(D|H0)≦P(H0 |D)；但我没说到底是什么关系。为了补救这一点，让我们谈一谈我们真正想要通过假设检验达到的目的。在科学中，我们通常会看到假设空间的二元版本，其中有一个零假设 H 0 和一个替代假设 HA ，我们希望评估 H 0 为真的后验概率。这用下面的关系式表示。

这清楚地表明，为了量化 H 0 的概率，我们必须考虑 HA T21 的概率。这并不奇怪，因为他们不是独立的。事实上，在给定观察数据的情况下，为了找到假设为真的概率，我们需要评估数据的可能性及其为真的先验概率，并将其与两个假设的全部证据联系起来。

然而，我们并不总是希望看到假设空间只有两种可能的结果。实际上，多重假设的完全广义空间是这样的。

每当你设计实验时，这种关系都值得记住。它是健全科学的基础，不应该被轻视。这篇小文章只是为了提醒您在统计课上使用 p 值和即插即用公式的危险。所以像往常一样，这里有一点建议

明确写下模型和假设，然后做推论！

目前就这些。

原载于doktormike . github . io。

互联网不想帮你

原文：towardsdatascience.com/the-interne…

如果我告诉你，我们不是在信息时代，我们没有人类历史上最好的获取知识的途径，会怎么样？那不可能是真的，对吗？

让我们进行一次现场实验。想一想“工作满意度”。我们花在工作上的时间比其他任何地方都多，我们对工作的感觉对我们在工作中的行为至关重要……嗯……在其他任何地方。

所以，让我们去搜索引擎，输入“工作满意度”，然后点击输入。在这里，我们看到结果页面顶部的文本显示“大约有 8，200，000 个结果”。耶！互联网不是浩如烟海，很有帮助吗？不，不是真的。当我们开始点击搜索结果的最后一页时(我们大多数人从未这样做过)，我们很快发现只有几个百个关于“工作满意度”的结果。等等。什么？是的，自从有时间以来，我们已经积累了多达 200 个有价值的搜索结果，这些结果与我们生活中最重要的一个方面有关。

当然，这 200 个结果一定能够准确地告诉我们关于“工作满意度”有哪些信息，对吗？不，不完全是。第一个搜索结果来自一本百科全书，上面写着“工作满意度对不同的人有不同的含义。对一些人来说，这是他们是否喜欢自己的工作……“好吧。感觉更聪明了吗？我不这么认为。

剩下的结果也好不到哪里去。它们包括字典定义、希望你聘用他们的咨询公司，当然，还有博客，上面有一个压力很大的人的必备照片，建议你“为自己找时间”和“不要为小事而烦恼”。太棒了。

想象一下，搜索“飞行”这个词，只看到莱特兄弟的历史记录和想卖给你飞机的网站！没有人会支持它，但事实并非如此。相反，我们可以立即从十几个网站中选择，帮助我们选择航班目的地、航空公司、出发时间、价格等。这同样适用于寻找关于水管工(Angie 的列表)、书籍(Amazon)或餐馆(Yelp)的可操作信息。

如果我们真的处于信息时代，我们将能够确定什么会增加工作满意度、幸福感、财富、领导力等。是什么减少了这些东西，减少了多少，以及减少到什么程度。

可悲的是，这些知识被困在科学家写的大而乏味的研究论文中。这就是我现在和你谈话的原因。我是一名教授和研究人员，我不满意世界上大多数人不能利用我和我的极客伙伴们产生的所有“学习”。事实上，这很尴尬。以及浪费时间。还有钱。和智慧。因此，由研究人员、技术人员、学生和专业人士组成的充满激情的团队开始悄悄地构建一个解决方案。这是一项艰巨的任务，但我们正在直播，而且很成功。www.Knowtro.com 是有史以来最有效的发现系统，它是为那些让其他事情发生的东西……知识而建立的。试试看。

物联网——在 Twitter 上

原文：towardsdatascience.com/the-interne…

用 Python 分析 800 万条物联网推文。

答几个月前，我想知道人们在推特上谈论物联网时会说些什么。所以在 200 天的过程中，从 2016 年【T10 月到 2017 年 5 月*，我记录了包含标签 #IoT 的推文。*

这导致总共超过 800 万条推文。

今天，我终于开始探索这些数据。

这篇博文的目的有两个:一方面，它展示了对这些数据进行探索性分析的一些结果。另一方面，它旨在简单介绍分析文本数据*，从预处理和可视化，到主题建模和情感分析— 都使用 Python 。*

【1】为了获取数据，我为基于Tweepy 的 Twitter 流 API 实现了一个简单的监听器，它将每个传入的 Tweepy**包含标签 【物联网 的 Tweepy 存储到 DynamoDB 【T4 可以 在 Github 上查看代码。

初看:标签、用户、语言

import pandas as pd
df = pd.read_csv('tweets.csv')
df.head()

Raw data in a pandas DataFrame

上面你可以看到我从推特上收集的原始数据在读入熊猫数据帧后的截图。它包含诸如推文的文本，推文的语言，推文的标签，以及作者的用户名等列。

与大多数数据相关的项目一样，我从简单的探索开始，最初对与标签 #IoT 一起使用的最常见的标签感兴趣。这很好地概述了人们在推特上谈论物联网时提到的其他话题。

注:如果你想看这篇博文引用的所有分析中使用的代码，看看这本 Jupyter 笔记本和相关的 Github 回购。

下面是一个条形图，显示了物联网推文中出现的前 10 个标签(忽略标签 #IoT )及其相应的频率:

该图显示了我原本期望看到的标签，因为它们显然与物联网相关(例如， #ai ， #bigdata ， #tech )，但有些乍一看并不明显，例如， #comunidade ， #ssp

经过快速搜索，我发现这些标签实际上与巴西圣卡塔林纳州公共安全部长有关。他们启动了一个名为 B em-Te-Vi 的项目，该项目由安装在圣卡塔林纳州多个地点的安全摄像头组成。从这些相机拍摄的图像每隔几分钟就会被发送到推特上，所有这些图像都标有 【物联网】 。

由于我对这些特定的推文不感兴趣，我删除了所有包含标签***【ssp***(与上述机构相关的标签)的推文。通过这样做，230 万条推文被从数据集中删除，我重新绘制了热门标签:

Top hashtags co-occurring with the hashtag #IoT after dropping the above-mentioned tweets

Et voilà，我获得了人们在 twitter* 上谈论物联网时提到的话题的出色概述，如 AI 、大数据、机器学习、Ssecurity。***

以类似的方式，其他有价值的见解也可以被揭示。下一步，我看了看关于物联网的最活跃用户的数量

Most active users (according number of tweets about #IoT)

根据剧情，用户 亚历杭德罗·维加拉 最积极地参与了关于物联网的推文。有趣的是，在这个数据集中，他的推文超过 99%被转发。在所有后续分析中，我决定放弃转发。这样一来，最活跃用户的列表看起来就完全不同了:

Most active users (number of tweets, retweets ignored)

此外，我还查看了推特数据集中使用的最常见语言*。***

可以看到超过 8 条 /10 条关于物联网的推文都是英文。

为了进行进一步的分析，我决定调查这些推文的内容。由于大多数文本分析工具都是特定语言的，所以我放弃了所有非英语的推文。

我最终得到了大约 165 万条推文的数据集。

词频:可视化常用术语

当处理文本数据时，通常需要执行多个预处理步骤，以便清理手边的文本数据*。这种文本清理步骤通常包括类似于移除标点符号、丢弃停用词和单个字符、将文本拆分成术语、 对单词、等的操作。*

在对每条推文都这样做之后，我开始查看我们所有物联网推文中最常用的个词*。我使用 Python 的 wordcloud 库来很好地可视化数据中的术语频率:***

Wordcloud of the most common terms in IoT tweets

wordcloud 展示了与物联网相关的常见术语。

如果您感兴趣的不仅仅是孤立的术语频率，文本挖掘中的一种常见方法是识别共现术语*，即所谓的 n 元语法。NLTK 是一个强大的 Python 自然语言处理库。下面是一个使用 NLTK 来识别常见的二元模型的例子——成对的连续书面单词:***

结果显示了顶级二元模型的列表——显示了非常熟悉的搭配！

主题建模:确定共同主题

主题建模是一种文本挖掘工具，用于发现文档中的中心主题(即推文)。主题模型的一个例子是潜在狄利克雷分配(LDA) ，它假设文档是由主题的混合产生的。

使用 Python 的 gensim 实现 LDA 进行主题建模，并将主题数量设置为 n=5 ，获得的每个主题的顶级术语为:

Top terms of topics identified using LDA

顶词列表显示不同的总体主题，例如新闻(0) 、安全(2) 或数据(4)* 可以使用主题建模来自动识别。***

情感分析:人们对物联网的感受如何？

情感分析用于确定作者对某一特定话题的态度是积极还是消极(或中立)。 TextBlob 是一个用于处理文本数据的 Python 库，为情感分析提供了一个模型。

将该模型应用于每条推文，并查看极性值的分布，我们可以了解推文的整体情绪:

Histogram of sentiment polarity values

该图说明了极性直方图如何向右倾斜，表明关于物联网的推文的总体积极情绪。****

我对负面关联的内容更感兴趣，所以我仔细查看了推文中极性很低的(即负面)最常见的术语:****

Most frequent terms in tweets with low polarity (negative)

并不奇怪，是吗？人工智能，其越来越成为负面新闻报道的一部分，以及 S 安全、一个在物联网中仍未解决并被广泛讨论的问题，出现在负面情绪的术语列表中。

为了更好地将推文分为积极和消极情绪，下面是模型返回的具有最大和最小极性的推文的随机样本:

Examples of tweets with negative sentiment

Examples of tweets with positive sentiment

摘要

可以从文本数据中提取有价值的见解。Python 生态系统及其丰富的数据科学库使得以许多不同的方式处理和分析文本数据变得容易，这取决于手边的用例。这些工具可用于快速、轻松地构建对公司有巨大价值的自动化工具。例如，在 WATTx ，我们构建了一个小工具，项目负责人可以输入一些与他的项目相关的标签，他的团队将定期从 Twitter 获得一个结果/新闻的精选列表到项目的 Slack 频道。这有助于我们了解正在运行的每个项目的进展情况。

这篇博文的目的是展示一些应用于推文的工具和文本分析概念的简单示例，以深入了解 Twitter 上的 【物联网】 内容。

这里展示的结果所使用的所有代码都是用 Python 编写的，可以在这个 Jupyter 笔记本中找到。

Python 库

熊猫 —强大的数据分析库
scikit-learn—Python 中机器学习的 goto 库
NLTK —自然语言处理工具
gensim—Python 中的主题建模工具
wordcloud——一个轻量级的库，用于生成好看的 word cloud
matplotlib — Python 2D 绘图库
tweepy —用于访问 Twitter API 的 Python 库

香农熵背后的直觉

原文：towardsdatascience.com/the-intuiti…

【警告:太容易了！]

伊恩·古德菲勒的《深度学习》一书的第 3.13 章信息论中写道:

我们将事件 X = x 的自我信息定义为

I(x)=-log P(x)

因此，我们对 I(x)的定义是以纳特为单位的。一个 nat 是通过观察概率为 1/e 的事件获得的信息量。

…

我们可以使用香农熵来量化整个概率分布中的不确定性。

The definition of Entropy for a probability distribution (from The Deep Learning Book)

但是这个公式是什么意思呢？

对于任何想要精通机器学习的人来说，理解香农熵是至关重要的。Shannon 熵产生了一个函数，它是 ML 从业者的面包和黄油——交叉熵在分类中大量用作损失函数，还有KL 散度广泛用于变分推理。

为了理解熵，我们需要从“比特”的角度开始思考。

位为 0 或 1。

因此，用 1 比特，我们可以表示 2 个不同的事实(又名信息)，要么是 1，要么是 0(或真或假)。假设你是 1945 年二战的一名指挥官。你的电报员告诉你，如果纳粹投降，他会给你一个“1”，如果他们不投降，他会给你一个“0”。

2018 年，你可以在智能手机上输入完全相同的信息

“战争结束了”(我们用 8 位* 15 个字符= 120 位，而不是 1 位)

《战争还没有结束》(8 比特* 19 字符= 152 比特)

因此，我们使用 100 多位来发送一条信息**,这条信息可以减少到一位。**

假设明天有四种可能的战争结果，而不是两种。1)德日双双投降。2)德国投降，日本不投降。3)日本投降，德国不投降。4)双方都不投降。现在你的电报员需要 2 位(00，01，10，11)来编码这个信息。同样，即使有 256 种不同的情况，他也只需要 8 位。

再正式一点，一个变量的熵就是这个变量所包含的“信息量”。你可以把变量想象成来自电报员的消息。新闻可以是任何东西。不一定是 4 个州，256 个州等等。在现实生活中，新闻可以是数百万个不同的事实。

现在，回到我们的公式 3.49:

The definition of Entropy for a probability distribution (from The Deep Learning Book)

I(x) 是X的信息内容。

I(x)本身是一个随机变量。在我们的例子中，战争的可能结果。这样， H(x) 就是每一个可能信息的期望值。

使用期望值的定义，上述等式可以改写为

Because -log P(x) = log (1/P(x))

等等…为什么我们要取概率的倒数？

H(X)是一个整体概率分布中的总信息量。这个意思是 1/p(x) 应该是每个案例的信息(打赢战争，输掉战争等)。

那么问题就是……

为什么 1/p(x)是信息量？

假设纳粹有 50%的机会投降(p = 1/2)。然后，如果你的电报员告诉你他们确实投降了，你就可以消除 total 2 事件(投降和不投降)的不确定性，这是 p 的倒数(=1/2)。

当你的所有事件发生的可能性都相等，并且你知道一个事件刚刚发生，你可以排除所有其他事件(总共 1/p 个事件)发生的可能性。例如，假设有 4 个事件，它们发生的可能性都相等(p = 1/4)。当一个事件发生时，它表示其他三个事件没有发生。因此，我们知道总共 4 个事件发生了什么。

那些不太可能发生的事件呢？

假设纳粹有 75%的几率投降，有 25%的几率不投降。

‘投降’这个事件有多少信息？

log(1/0.75)= log(1.333)= 0.41(向前省略以 2 为基数的对数)

'不投降'事件有多少信息？

log (1/0.25) = log(4) = 2

如你所见，不太可能的事件有更高的熵。

这就是为什么信息是概率的倒数的直觉。

黑点就是新闻。

通过了解黑点，我们可以同时消除另外 3 个白点。

共 4 点(总信息)突发。

现在，知道了一个黑点，我们总共能爆多少个点？

我们可以消去总共 1 又 1/3 = 1.333 个点，也就是3/4 的倒数。

你能爆的总点数=每条新闻的信息量。

于是，每一个可能新闻中的信息是 0.25 * log(4)+0.75 * log(1.333)= 0.81(香农熵公式。)

现在我们知道 1/p 来自哪里了。但为什么是日志？香农认为任何事物的信息量都可以用比特来衡量。要用比特写一个数 N ，我们需要取 N 的以 2 为底的对数。

外卖食品

如果我们有 P(win) =1，熵就是 0。它没有一点不确定性。(-log1 = 0)

请注意，热力学“熵”和信息论中的“熵”都捕捉到了不断增加的随机性。

请注意，在我们的示例中，对于“同等可能性”的消息，熵(2 位)高于“不同等可能性”的消息(0.81 位)。这是因为在“不太可能”的消息中存在较少的不确定性。一个事件比另一个事件更有可能发生。这降低了不确定性。

对于实施爱好者，这里是 Python 代码。

看看字符数越多，不确定性(熵)越大。

import math 
import randomdef H(sentence): 
    """
    Equation 3.49 (Shannon's Entropy) is implemented.
    """
    entropy = 0 
    # There are 256 possible ASCII characters
    for character_i in range(256): 
        Px = sentence.count(chr(character_i))/len(sentence) 
        if Px > 0: 
            entropy += - Px * math.log(Px, 2) 
    return entropy# The telegrapher creates the "encoded message" with length 10000.
# When he uses only 32 chars 
simple_message ="".join([chr(random.randint(0,32)) for i in range(10000)])# When he uses all 255 chars
complex_message ="".join([chr(random.randint(0,255)) for i in range(10000)])**# Seeing is believing.****In [20]: H(simple_message)
Out[20]: 5.0426649536728 the** **In [21]: H(complex_message)
Out[21]: 7.980385887737537****# The entropy increases as the uncertainty of which character will be sent increases.**

在下一篇文章中，我将解释我们如何将香农熵扩展到交叉熵和 KL 散度。

高斯过程贝叶斯优化背后的直觉

原文：towardsdatascience.com/the-intuiti…

更新:我开了一家科技公司。你可以在这里找到更多

在某些应用中，目标函数是昂贵的或难以评估的。在这些情况下，一般的方法包括创建目标函数的更简单的替代模型，该替代模型评估起来更便宜，并且将替代地用于解决优化问题。此外，由于评估目标函数的高成本，经常推荐迭代方法。迭代优化器通过在域中的一系列点上迭代地请求函数的评估来工作。贝叶斯优化通过在可能的目标函数空间上结合先验模型，将贝叶斯方法添加到迭代优化器范例中。本文介绍了高斯过程贝叶斯优化背后的基本概念和直觉，并介绍了 OPTaaS ，一个用于贝叶斯优化的 API 。

最佳化

优化方法试图将域中的输入 x 定位到函数 f 中，该函数在*上最大化(或最小化)该函数的值:**

The general Optimization framework

在实践中，函数 f 表示需要优化的过程的结果，例如交易策略的整体盈利能力、工厂生产线上的质量控制指标，或者具有许多参数和超参数的数据科学管道的性能。

输入域 𝒳 代表需要优化的过程的有效参数选择。这些可以是交易策略中使用的市场预测，工厂流程中使用的原材料数量，或者数据科学管道中 ML 模型的参数。正是输入域*【,𝒳*的描述，连同函数 f 的性质，表征了优化问题。流程域的有效输入， 𝒳 ，可以是离散的、连续的、受约束的或这些的任意组合。类似地，结果函数 f 可以是凸的、可微的、多模态的、有噪声的、缓慢变化的，或者具有许多其他重要性质。

在某些应用中，目标函数评估起来很昂贵(计算上或经济上)，很难评估(化学实验、石油钻探)。在这些情况下，一般的方法包括创建目标函数的更简单的替代模型 f ̂ ，该替代模型评估起来更便宜，并且将替代地用于解决优化问题。****

此外，由于评估目标函数的高成本，经常推荐迭代方法。迭代优化器通过在域 x 1、 x 2、*中的一系列点处迭代地请求函数 f 的评估来工作。。。∈t37】𝒳t39】。通过这些评估，优化器能够构建函数 f 的图像。对于梯度下降算法，这个图像是局部的，但是对于代理模型方法，这个图像是全局的。在任何时候，或者在函数评估的预分配预算结束时，迭代优化器将能够陈述其对 x 的真实值的最佳近似。

使用 N 已知的评价值:F =(f1，f2，…，fN)at【XN =(x1，x2，…，xN) 来训练代理模型。有许多方法用于建立替代模型，如多项式插值、神经网络、支持向量机、随机森林和高斯过程。在 Mind Foundry，我们选择的方法是使用高斯过程进行回归。**

高斯过程

高斯过程(GPs)在函数空间上提供了一类丰富而灵活的非参数统计模型，其域可以是连续的、离散的、混合的，甚至是分层的。此外，GP 不仅提供关于的可能值的信息，而且重要的是还提供关于该值的不确定性的信息。

高斯过程回归背后的思想是针对在某些点的一组观察值**【XN】我们假设这些值对应于具有先验分布的多变量高斯过程的实现:**

其中 KN 是一个NxN协方差矩阵及其系数用一个相关函数(或核) Kmn =K(xm，xn，θ) 来表示。根据最大似然原则校准内核的超参数 θ 。 KN 被选择来反映函数的一个先验假设，因此核的选择将对回归的正确性产生重大影响。图 2 给出了几个协方差函数的示例。

通过数学变换并使用条件概率规则，可以估计后验分布p(f n+1|f N， XN+1 )并将 f ̂N+1 表示为 KN 和 fn 的函数，具有不确定性。这允许我们从我们的观察中构建一个概率代理，如图 1 所示:

****

贝叶斯优化

贝叶斯优化是一类迭代优化方法，专注于一般优化设置，其中𝒳的描述是可用的，但对 f 的属性的了解是有限的。贝叶斯优化方法有两个特点:

代理模型 f ̂ ，对于函数 f 、
以及从代理计算的 获取函数 ，用于指导下一个评估点的选择

BO 通过在可能的目标函数空间上结合f的先验模型，将贝叶斯方法添加到迭代优化器范例中。通过在每次报告函数评估时更新该模型，贝叶斯优化例程保持目标函数 f 的后验模型。这个后验模型是函数 f 的代理 f ̂ 。具有 GP 先验的贝叶斯优化例程的伪代码是:**

初始化 : 根据初始空间填充实验设计，在 f 之前放置高斯过程，在 n 0 点观察 f 。

将 n 设定在 n 0

而**N≤Ndo:

使用所有可用数据更新 f 上的后验概率分布
识别𝒳上采集函数的最大值*【xn】**，其中采集函数是使用当前后验分布计算的*
观察yn=f(xn)**
增量 n

结束而

****返回具有最大 f ( x )的点或者具有最大后验均值的点。

标准采集函数的一个例子是 预期改善标准 (EI)，对于 x ∈ 𝒳中的任何给定点，该标准是 x 处的 f 的值相对于 f 的最佳值的预期改善。鉴于函数 f 在 x 处确实高于 f 的最佳值；所以如果我们在寻找 f 的最大值，EI 可以写成:

e I(x)= 𝔼(max(f(x)f，0)*

*其中 f 是目前看到的 f 的最大值。

采集功能的其他示例有:

熵搜索，其在于寻求最小化我们在最佳值位置的不确定性
置信上限
预期损失标准

图 3 示出了代理的演变以及它与获取函数的交互，因为它在它试图最小化的基础函数的每次迭代之后改进了它的知识。

使用 OPTaaS 实施业务对象

OPTaaS 是一个通用的贝叶斯优化器，它通过 web 服务提供最佳的参数配置。它可以处理任何参数类型，并且不需要知道底层的过程、模型或数据。它要求客户端指定参数及其域，并回传 OPTaaS 推荐的每个参数配置的准确度分数。OPTaaS 使用这些分数对底层系统进行建模，并更快地搜索最佳配置。

Mind Foundry 已经在 OPTaaS 中实现了一套代理模型和采集功能，它将根据所提供的参数的性质和数量自动选择和配置，如图 4 所示。这种选择是基于彻底的科学测试和研究，因此 OPTaaS 总是做出最合适的选择。此外，Mind Foundry 能够为客户的特定问题设计定制协方差函数，这将显著提高优化过程的速度和准确性。OPTaaS 的大多数用户需要优化复杂的流程，这种流程运行起来很昂贵，而且反馈有限。出于这个原因，OPTaaS 将其 API 集中于提供一个简单的迭代优化器接口。然而，如果有更多关于被优化的过程的信息，它总是可以被用来更快地收敛到最优。因此，OPTaaS 还支持关于域𝒳的信息的通信，例如关于输入的约束，以及关于函数 f 的评估，例如噪声或梯度或部分完整的评估。此外，客户通常能够利用本地基础设施来分发优化搜索，也可以请求 OPTaaS 进行批量评估。

优化过程如下:

OPTaaS 向客户推荐一种配置
客户评估他们机器上的配置
客户发回一个分数(准确性、夏普比率、投资回报等)
OPTaaS 使用该分数来更新其代理模型，并且循环重复，直到达到最佳配置。

在整个过程中，OPTaaS 不访问底层数据或模型。更多关于 OPTaaS (Mind Foundry Optimize)的信息可以在这里找到。

【更新:我开了一家法律科技公司。如果你已经做到了这一步，你可能会有兴趣在这里找到更多的

团队和资源

Mind Foundry 是牛津大学的一个分支机构，由斯蒂芬·罗伯茨(Stephen Roberts)和迈克尔·奥斯本(Michael Osborne)教授创建，他们在数据分析领域已经工作了 35 年。Mind Foundry 团队由 30 多名世界级的机器学习研究人员和精英软件工程师组成，其中许多人曾是牛津大学的博士后。此外，Mind Foundry 通过其分拆地位，拥有超过 30 名牛津大学机器学习博士的特权。Mind Foundry 是牛津大学的投资组合公司，其投资者包括牛津科学创新、牛津技术与创新基金、、牛津大学创新基金和 Parkwalk Advisors 。

文档

教程:https://tutorial . opta as . mind foundry . aiAPI 文档:https://opta as . mind foundry . ai

研究http://www . robots . ox . AC . uk/~ mosb/projects/project/2009/01/01/bayesopt/

参考文献

奥斯本，硕士(2010)。顺序预测、优化和求积的贝叶斯高斯过程(博士论文)。牛津大学博士论文。

****演示:Charles . brecke @ mind foundry . ai

人工智能时代的隐形工人

原文：towardsdatascience.com/the-invisib…

围绕管理为人工智能提供动力的数据，出现了一种新型的蓝领产业

在人工智能研究的早期，美国康奈尔大学的科学家弗兰克·罗森布拉特(Frank Rosenblatt)发明了他所谓的“感知机”。感知器是一种算法，旨在对展示给它的对象进行分类，是现代人工智能的祖先。当罗森布拉特在 1958 年的一次新闻发布会上变得有点自吹自擂时，《纽约时报》发现了这一点，并有点兴奋过头了。“海军新设备边做边学；一篇文章的标题写道:“心理学家展示了设计用来阅读并变得更聪明的计算机胚胎”。作者接着说:

海军表示，感知机将是第一个“能够在没有任何人类训练或控制的情况下接收、识别和识别周围环境”的非生物机制

这种语气听起来熟悉吗？

没有一个星期没有人工智能和算法能够完成以前留给人类的任务的新突破的消息。这些天有很多关于工作自动化和我们新的算法霸主的谈论，这些算法霸主似乎很少有人参与就能完成复杂的任务。然而，这是一个谬误——我们看不到人工智能背后的人类并不意味着没有人类。这不仅适用于开发这些算法的工程师。事实上，有一种新的蓝领工作管理数据，这些数据对算法的功能至关重要，据说这些算法为我们的数字化经济提供了动力。

这不是我们第一次忽视那些努力让技术发挥作用的人们。“计算机”实际上是人，其中很大一部分(报酬很低)是女性，从事已经自动化的计算工作，但时间不长。女性也是第一批计算机程序员之一，她们操作着复杂的机器，比如运行罗森布拉特感知器算法的机器，但却被第一批计算机的工程师所掩盖。当时很少有人关注大型科技公司、政府机构和研究实验室的幕后工作者。只是最近，学术界对这些工作者的认可有所上升，例如，在 T2 好莱坞也是如此。我们应该以史为鉴，不要重蹈覆辙。要做到这一点，我们需要看看谁是新的隐藏的技术人物，他们的工作是什么，以及为什么需要他们。

A computing group at NASA’s Jet Propulsion Laboratory, circa 1955 (source: JPL/Caltech)

像一辆没有轮子的汽车

如今，当人们谈论人工智能时，他们真正的意思通常是机器学习。反过来，大多数 ML 算法本质上是统计模型，它们通过分析之前输入的大样本数据——“训练数据”，来“学习”如何执行特定任务。开发人员依赖这些模型是因为所谓的“波兰尼悖论”:我们知道的比我们能说的多，也就是说。我们的很多知识都是隐性的，这就是为什么我们不能简单地以硬性规则的形式将其编程到软件中；不管任务有多琐碎，要教计算机程序，我们需要展示或“训练”它们。因此，一个非常复杂但未经训练的 ML 算法就像一辆没有轮子的跑车:它可能看起来仍然很好，但它不会带你去任何地方——它本质上是无用的。同样，如果你喂你的 ML 模型垃圾训练数据，它也会吐出垃圾结果。

但是“训练数据”到底是什么？假设你经营着一家蓝莓松饼工厂，但每隔一段时间，一只从附近动物收容所逃跑的狗会意外地跳上传送带，你的人工智能包装机器人需要区分松饼和狗，以便没有狗最终出现在杂货店的货架上。对于机器人来说，要实现这一点，需要给它输入大量松饼和狗的图片，并给它们贴上相应的标签，这样它就可以推断出它们的识别特征。例如，同样的原则适用于自动驾驶汽车(除其他外，需要能够识别停车标志)和大多数其他人工智能应用。

Chihuahua or muffin? Not that easy to tell for a machine without human supervision (source: Mariya Yao)

这给公司带来了一个问题:他们如何获得带标签或带注释的数据？即使他们获得了大量数据，如照片(用于图像识别算法)、录音(用于语音识别)或书面文本(用于情感分析)，标记所有这些数据也是一项繁琐的任务，需要由人类来完成。这是工作。

50 种标注数据的方式

T 以下是给你的数据贴标签的不同方法。一些公司自己给他们的数据贴上标签——尽管这可能成本很高，因为雇佣人员来完成这些任务会让公司既花钱又失去灵活性。其他公司甚至想办法让人们免费标记他们的数据。有没有想过为什么谷歌的 reCAPTCHA 一直要求你识别模糊照片上的交通标志？(一个小提示:谷歌的控股公司 Alphabet 也拥有处于自动驾驶前沿的 Waymo)然而，在大多数情况下，标记和管理数据的是受薪工人，一个完整的外包行业已经围绕它兴起。无论是在世界各地工厂般的工作场所，还是通过在家或智能手机进行远程工作:这些都是推动人工智能的隐形工人。

reCAPTCHA — everybody’s favorite pastime on the internet

就像西方公司在 20 世纪 60 年代和 70 年代开始将制造工作外包给发展中国家一样，科技公司正在将数据标签外包给外国公司，这些公司运营着可以被称为数据标签工厂的工厂。就像过去一样，这些工作被转移到一些地方——从中国的到中非的——那里工资低，工作条件对他们更有利。在那里，前仓库和大型开放空间办公室中的大量工人坐在电脑前，花费他们的工作日来标记数据。正如李远在最近为纽约时报撰写的文章中引用一家中国数据标签公司的联合创始人的话:

我们是数字世界的建筑工人。我们的工作是一砖一瓦[……]但我们在人工智能中发挥着重要作用。没有我们，他们就无法建造摩天大楼。

外包数据标签的另一种方式是通过在线众包工作平台，依靠他们的用户在世界各地完成分解成小组件的任务。这包括大型平台，如亚马逊的机械土耳其人(Mechanical Turk)及其数十万注册的众包工作者，但也包括专门的平台。一些大型科技公司甚至有自己的众包平台来管理数据，其他公司可以依赖专门关注数据标签的小型平台服务。员工从事这些工作的动机各不相同:一些人想在业余时间赚点外快，看重这类平台提供的灵活性。正如专业数据标签应用程序 Spare5 的一名用户在的宣传视频中解释的那样:

这只是，你知道，我可以很容易地做的事情，只是拿出我的手机，做一些任务，在回家和上班的路上做一些摘要。[……]对我来说，知道我花了这些时间真正深入挖掘，试图找到信息，这是一点点回报[……]我觉得我正在解决一个谜，解决这个难题。

然而，其他人依靠这些平台工作谋生，并经常面临巨大的风险:低工资，没有(或几乎没有)就业保护和员工权利，以及巨大的不确定性。

人工智能时代的蓝领工作

T 退一步说，很明显，一种新型的低技能蓝领工作已经出现，以满足技术对标签数据的需求。与在工业经济中从事物理装配线工作相反，这种新的人工智能工人阶级已经成为数字化“数据供应链”的一部分。当然，并非所有这些工作都是低技能的——从 CT 扫描图像中检测癌症的算法需要由经验丰富的放射科医生进行培训。但是，根据波兰尼悖论，研究人员试图让 ML 应用程序完成的大多数任务对人类来说仍然相当简单，训练这些算法只需要常识。

因此，重要的是确保这种新的工作类别成为工人经济保障的驱动力，而不是剥削的来源。至于更“传统”的全球行业的供应链，如采矿业或服装业，我们所有人——政府、消费者和企业——都有责任确保那些标记数据的人在体面的条件下工作。

政府将很难监管这个全球无边界的数据标签服务市场的工作。然而，他们必须努力调整旨在改善工作条件的现有制度，并推动企业创建公平的数据供应链。在这方面，大众工作和数据标签工厂的工作都提出了不同的挑战，但这些障碍都不是不可克服的。然而，克服这些困难确实需要监管努力以及国际和跨部门合作。反过来，企业必须提供一些关于其数据供应链的透明度。尽管第一世界的消费者在很大程度上仍然不知道他们的衣服和小玩意是在遥远的地方制造的，但我们也应该让科技公司对它们驱动人工智能应用的方式负责。毕竟，消费者确实有影响力，负责任的消费可以影响企业的行为。

无论我们对技术进步的速度有多兴奋，现在和过去一样重要的是，不断提醒自己，我们每天在媒体上听到的人工智能的大多数进步背后都有人——实际上是很多人。由于 ML 研究人员正在寻找越来越多的自动化新任务，这些工作不会很快消失。让我们确保它们是体面的工作。

本文是在巴黎政治学院“技术革命的历史”课程的背景下撰写的，授课老师为laurène TranBesiana Balla和Nicolas Colin。**

进一步阅读

如果上面的内容引起了你的兴趣，这里还有一些探索同一主题的文章:

莎拉戴，人工智能承诺就业革命，但首先它需要老式的体力劳动——来自中国，南华早报，2018 年 10 月

马克·格雷厄姆，全球劳动力市场的兴起——以及它对未来工作的意义， 《新政治家》，2018 年 1 月

Hope Reese，‘数据标签’是 AI 时代的新蓝领工作吗？、 TechRepublic、【2016 年 3 月

霍普·里斯和尼克·希斯，亚马逊点击工人平台内部:50 万人如何被支付一分钱来训练人工智能 ，TechRepublic， Dember 2016

汤姆·西蒙尼特，为了让人工智能更聪明，人类执行古怪的低收入任务，连线，2018 年 9 月

李远，廉价劳动力如何推动中国的人工智能雄心，《纽约时报》，2018 年 11 月

IPO 模式

原文：towardsdatascience.com/the-ipo-mod…

在我的大会数据科学沉浸式课程期间，我的同事 David Ortiz 建议我应该写一篇关于我如何编写函数的博文。在编写脚本时，我倾向于使用输入过程输出模型(IPO ),它有助于组织和分类您的功能。让您的代码符合这种模型可能需要一些努力，但回报来自于拥有组织良好且易于调试的代码。

以下将是我如何在我的第一篇博文中使用 IPO 的演练，哪个佐治亚大学校园发生的事件最多，分析了哪个佐治亚大学校园发生的事件最多。

输入

这应该是一个函数或一组函数，它加载创建所需输出所需的数据。很多时候，这将是读取 CSV 或使用 ODBC 连接从 SQL 数据库获取数据。

在这种情况下，我创建了一个名为 scrape_ga 的函数来抓取总会网站上的各个城市活动页面。网络抓取的数据随后被放入相应城市的数据框架中。

Input Function

流程

这应该是一个或一组准备数据的函数，以便产生适当的输出。这可能意味着清理或聚合数据。

大会网站上的事件数据非常干净，所以这里不需要做太多处理。我所做的是将通过抓取功能创建的所有单个城市数据帧组合起来，然后对最终的主数据帧进行重复数据删除。

Process Function

输出

这应该是一个函数或一组函数，它使用干净的处理数据创建所需的输出。这可能是一个新的电子表格或模型或图形的输出。

在这种情况下，输出是一个条形图，比较每个校园的事件数量。

Output Function

Resulting Output

为什么要用 IPO？

在了解 IPO 之前，我只会用函数，避免重复自己。虽然用这种方式快速编写代码很容易，但这确实导致了一些问题。

组织调试代码

IPO 训练你了解你每项职能的广泛目的，并以逻辑的方式组织它们。IPO 有一个清晰的流程:输入函数提供给处理函数，处理函数提供给输出函数。遵循这个模型将使你的同事和你未来的自己更容易阅读和修改你的代码。如果有一个错误，那么它将更容易找到哪里需要进行修正。

保持全局命名空间干净

python 最酷的特性之一是名称空间。如果一个变量是在一个函数中创建的，那么只有这个函数能够使用这个变量——它是一个局部变量。但是如果变量是在函数之外创建的，那么所有函数都可以访问它——它是一个全局变量。

a = 1 #This is a global variabledef function_1():
    b = 2 #This is a local variabledef function_2():
    print a #This step will work because a is a global variable
    print b #This will result in an error because b is local to        
            #function_1

保持全局名称空间的整洁对于短脚本来说不是问题，但是对于长脚本来说，很难跟踪所有的变量，这会导致更多的错误。

a = 1### 1000 lines of codea = "Cat"### 1000 more lines of codea += 1 #I forgot that I changed a to a string. This will result in        
       #an error.

根据分析环境修改 IPO

作为数据科学家，我们的大部分工作是以一种易于阅读的格式显示我们的过程和结果，例如 Jupyter 笔记本。我发现自己经常写一行代码，然后用一个 markdown 单元格来解释它。将您的代码放在三个左右的主要 IPO 函数中并不真正有利于这种格式，除非是较小的项目。

在这种情况下，我使用 IPO 的修改版本，其中我有一组主要的输入函数和处理函数，并且我的所有分析(也就是我的输出)都是全局完成的。其原因是，尽管作为数据科学家，我们 80%的工作是获取和清理数据，但利益相关者主要关心的是 20%的分析。我仍然会注释掉我的输入和处理函数，但是要确保我的分析在整个笔记本的 markdown 单元格中突出显示。

你可以在我的文件夹中看到大会网页抓取项目的全部 Jupyter 笔记本。我是 IPO 的大力支持者，因为它帮助我编写了长期可用的代码。偏离 IPO 可能很诱人，但每次偏离都会导致混乱的代码，我最终不得不重写到 IPO 中。

福克斯新闻频道与世隔绝的巢穴

原文：towardsdatascience.com/the-isolate…

绘制在线新闻出口引用网络

Interactive visualization of citation networks (srdean.shinyapps.io/Final/)

kraine 说俄罗斯向其海军舰艇开火，扣押了它们……通用汽车公司关闭了工厂，并因销售缓慢而削减了数千个工作岗位……中国科学家声称第一个基因编辑婴儿……

这是 2018 年 11 月最后一周互联网头版的几个头条新闻。以 T2 最受欢迎的新闻网站中的 16 个为重点，我在这一周的时间里从 480 篇文章中收集了数据(美国新闻、世界新闻、政治、观点、商业和娱乐各 5 篇)。

Fig. 1: Sources & popularity (millions of unique monthly visitors)

对于每篇文章，我都记录了链接到其他在线新闻网站的时间。链接可以是超链接，也可以是文本引用和引文*。换句话说，每当有信息从一个来源流向另一个来源时，我的目标就是捕捉它。

*这种边缘结构在一些与 谷歌的 PageRank 相同的假设下运行，即假设从其他网站接收更多链接的网站可能更重要。

由于我的数据集的强大性质，我决定创建一个交互式应用程序，允许用户将网络划分到某些类别中。这里有:srdean.shinyapps.io/Final/。

下面的完整网络代表了我的数据库中引用的 312 个独特的经销店，加上代表 NewsMax 和 Blaze 的两个点，它们是唯一没有出现在另一个来源的引用列表中的原始来源。分数是根据“度内中心性”来确定的(即被更多文章链接的网站看起来更大)。

Fig. 2: Complete network with the original 16 sources labeled and points sized according to in-degree centrality.

您会注意到网络中几个最大的点是未标记的。引用次数最多的两个来源是美联社和路透社。**这两家都没有出现在我最常去的美国新闻机构列表中，因此没有包括在最初的分析中。

**123 篇文章(约占数据库总数的四分之一)链接到美联社，60 篇链接到路透社

然而，除了这两个来源，引用的数量似乎与受欢迎程度相关。例如，CNN 和《纽约时报》( NYT)在网络中显得相对较大，并且具有两个最高的受欢迎度得分。我研究了这种关系，发现在引用次数和受欢迎程度之间存在显著的正相关(t < .01)。

Fig. 3: Correlation between popularity (x-axis) and number of incoming citations (y-axis)

不过，值得注意的是，福克斯新闻频道并不完全符合这条回归线。尽管《福克斯新闻频道》以每月 7800 万的访问量排名第四，但在 480 个故事的数据库中，它只被三个故事引用。这是 16 个来源中排名第四低的，甚至排在 Vox 之后，Vox 的受欢迎程度大约是它的三分之一，但引用次数是它的两倍多。如果更保守的新闻媒体被纳入分析，这些结果可能会有所不同。然而，自由派人士被选中仅仅是因为他们的受欢迎程度更高。

这些结果支持了皮尤研究中心的一项研究的发现，该研究指出，自由主义者总是说出一系列主要新闻来源(CNN、NYT、NBC 和 NPR ),而保守派则更倾向于一个，福克斯新闻频道。因此，看起来有许多受欢迎的倾向自由派的新闻媒体，主要是一个受欢迎的倾向右翼的消息来源。

我创建的下一个网络只包含原始列表中源之间的边(图 1)。使用 igraph R 的 cluster_walktrap 算法，我识别并突出显示了这个网络中的社区。这个函数试图在一个图中寻找密集连接的子图。结果如图 4 所示，根据政治偏见***(由各方评级)进行评分。com)。

** * 深红代表更保守的偏见，洋红色代表唯一的中间派来源《今日美国》，深蓝显示更重的自由派偏见。

Fig. 4: A network of hyperlinks and in-text citations from and to online news sources. Points are sized according to number of incoming citations and colored according to political leaning (Allsides.com)

这个网络开始描绘福克斯新闻频道的局外人身份。在两个社区中，Fox 显然占据了不太重要的一个，并且由于很少的链接，看起来相对较小。更大的社区显然是非常忧郁的，但是从这一观察中得到的见解是有限的，因为事实上网络中的大多数来源只是更加自由。

在接下来的分析中，我将重点放在网络如何根据文章类别而变化。图 4 展示了我为政治专栏文章构建的六个网络之一。使用 cluster_walktrap 函数再次定义了社区。

Fig. 4: Network for articles in Politics sections

单独部分的群落形成非常不规则；然而，我能够从我的结果中得出一些结论。最常见的“邻居”——在同一社区中发现的来源——是 NYT 和华盛顿邮报，在六个社区中的五个社区中一起出现。根据 Allsides 评级，任何时候一个来源作为另一个来源(至少六分之四)的邻居出现在大多数网络中，他们都属于政治光谱的同一侧。福克斯新闻从未出现在 Buzzfeed、赫芬顿邮报、华盛顿邮报、NYT、NBC 或卫报的社区中。

在社会学和社会心理学中，隐含的和确认的偏见被很好地观察到，并且彻底地讨论了这些现象。第一个定义了我们将人分组的自然趋势，并形成了基于“我们与他们”的信任和不信任的概念。后者，确认偏差，指的是我们倾向于寻找确认我们已经知道或相信的信息。

大规模研究发现，这些偏见深深渗透到我们的媒体消费中，导致了政治两极分化。皮尤研究中心(Pew Research Center)描述说，“当涉及到获取关于政治和政府的新闻时，自由派和保守派居住在不同的世界。他们求助和信任的新闻来源几乎没有重叠。”

我认为，关于这些偏见如何在新闻的实际来源中表现出来的概念还没有得到很好的探索。对于这个研究项目，我试图确定新闻网站引用的网络特征。一路走来，我的目标是回答新闻来源是否像它们的消费者一样“存在于不同的世界”的问题，以及确定哪些网站在网络信息传播中发挥着最大的作用。

这个项目的网络分析得出的发现表明，在某些调节信息流动的网络新闻来源之间存在着密切的联系。某个特定渠道在这个网络中的受欢迎程度可以简单地通过网站在读者中的受欢迎程度来预测，但似乎存在关于该渠道的政治偏见的警告。虽然还需要更多的研究来支持这一观察，但似乎来源更有可能引用和被分享他们政治观点的网站所引用。

从深度学习实验到生产就绪模型构建的旅程🤓

原文：towardsdatascience.com/the-journey…

小规模和超大规模深度学习的主要区别

自深度学习革命兴起以来，由 Krizhevsky 等人 2012 ImageNet 的胜利引发，人们一直认为数据、处理能力和数据科学家是构建人工智能解决方案的三个关键要素。拥有最大数据集、最多用于训练神经网络的 GPU 和最聪明的数据科学家的公司将永远占据主导地位。

然而，这只是事实的一部分。

虽然拥有最多数据的公司确实能够建立更好的预测模型，但模型质量的提高与数据集大小不成线性比例。与此同时，当今大多数公司要么拥有大数据，要么以数据收集为核心——因此，有人可能会说，虽然更多数据是一种竞争优势，但它不再是一种大优势。数据面临的挑战更多的是拥有带有标签和结构化数据的有意义的数据湖，而不是数据的绝对数量。更好的人工智能解决方案和数据之间存在相关性，但不一定是因果关系。

同样，虽然对处理能力的需求确实与模型训练的数据量成比例增长，但实际上今天每个公司都可以获得几乎无限的处理能力。强大的内部服务器场和大型云运营商让每个人都可以通过网络访问成千上万的 GPU。处理能力面临的挑战更多的是如何有效地利用这些资源，而不是访问它们。就像航空公司优化飞机在空中的时间一样，有效的数据科学就是优化云 GPU 的使用方式。

虽然数据科学家短缺，这表现在他们的工资上涨(比他们的软件工程师同行高 30%)但算法开发的需求并不像拼凑基于预先研究的最佳实践的模型那样迫切。人工智能专家、作家和风险投资家李开复称这种能力的转变为“从思想家到修补匠的转变”。当谈到人工智能时，我们已经从研究转向工程，这需要一套不同的技能。

通过数据、处理能力和能力的这种转变，深度学习在过去五年中从“如何应用它”的问题中变得成熟对于更实际的问题“我们如何快速扩大生产规模？”。快速构建生产规模的解决方案需要一套新的工具，而不是研究或勘探所需的工具。

让我们看看这在实践中意味着什么。

人工智能工具和框架来拯救！🚀

人工智能的大肆宣传和对更有技能的人的需求相结合，吸引了不同领域的人进入数据科学。软件工程师、数学家和统计学家都有不同的背景和不同的工作方式。软件工程师可能是唯一在时间紧迫的情况下在大团队中一起工作的人。

根据定义，工程师是思想家提出的解决方案的修补者，而数学家和分析师更多的是一个人的工作。

但是软件工程师也不总是一起工作。在 20 世纪 90 年代早期和更早的时候，软件开发往往是一个人的工作，英雄程序员们拼凑出没有人理解或能够合作的解决方案。没有支持真正协作的版本控制(你桌面上的文件，有人吗？)，更不用说单元测试了(println()测试对吗？)、持续集成、云计算或者 Scrum(UML 图和用例规格说明还是一个东西吗？).在过去的 30 年中，这些方法被反复开发，以适应加速软件开发和高效团队的需要。

然而，今天我们在数据科学领域仍然缺乏这些工具。人们不再使用标准工具，而是设计自己的工作流、工具和框架。更糟糕的是，这一次，这些人来自完全不同的背景。快速和肮脏的解决方案再次积累。

人们在 Excel 表格中通过 Slack 共享“版本控制实验”，并链接到 Dropbox 中存储的 Jupyter 笔记本。我们难道没有从过去 30 年中学到什么吗？

Dropbox 股票中的 Jupyter 笔记本就像深度学习的山达基——他们有狂热的支持者，但我们大多数人不会把钱投在它身上。工具本身并没有错，错的是你使用它们的目的。

在我们选择工具之前，我们必须就我们想要解决的问题达成一致。我认为我们要实现三个主要目标:

快速实验 —我们希望数据科学快速而敏捷。人们应该能够测试东西，而不需要花费时间在样板代码或开发工作上。
再现性 —我们希望确保我们进行的每个实验的再现性和审计追踪。团队应该互相学习，借鉴以前的实验，这样我们就不必一遍又一遍地重复发明轮子。
标准化的工作方式 —我们希望工作标准化。所以当新人加入时，他们知道事情是如何运作的。当有人离开时，我们知道他们以前做过什么。

让我们一次看一个！

快速实验🔬

A Data Scientist wants to quickly try out new models and see if they work. And in case they don’t tweak, re-iterate and improve!

在深度学习中，快速实验的核心取决于你处于模型构建的哪个阶段。在开始时，你需要能够探索你的数据，将它可视化并了解它。像 H2O 这样的工具对于了解你的数据和建立你的第一个假设是极好的。

当你走得更远时，你可能想在 Jupyter 笔记本上用熊猫做一点实验。但是，随着您构建生产规模模型的深入，尤其是如果您的团队不仅仅由您一个人组成，您肯定希望迁移到具有适当自动完成功能的 IDE，并且能够在比本地机器上的 GPU 更强大的集群上运行您的实验。

因此，快速实验的关键是全自动的机器编排，这对于单个数据科学家来说是尽可能透明的。单击一个按钮或在命令行上运行一个命令将是最佳选择。

再现性👯‍

Even Darth Vader seems to understand the importance of reproducibility once an optimal solution is found!

任何科学工作中再现性的关键是对每个实验进行严格和完整的簿记，即版本控制。不得不手动进行版本控制不是一个选项，因为这不是您在模型开发期间的主要关注点，从而导致随机快照而不是完全可再现性。

但是与软件工程不同，再现性不应该仅仅局限于你的训练代码，还必须包括你的训练和测试数据、外部超参数、软件库版本等等。

在这种情况下，对每一次训练运行的每一部分进行自动版本控制是最佳的解决方案。

标准化管道管理💩

Machine Learning pipelines are just like plumbing – you want to ensure the output from your toilet smoothly gets to the cleaning facility – without getting clogged on the way!

让整个团队以同样的方式工作，并有一定的自由度是必要的。你如何存储数据？您在哪里部署模型和代码？你在哪里训练他们？您使用哪些框架，以及如何将特征提取与模型训练链接在一起？

如果团队中的每个人都自己解决这些问题，不仅会浪费大量时间，还会使协作变得几乎不可能。

解决方案是通过标准的链接和编排方式将管道步骤解耦。作为一个简单的解决方案，它可以只是一个脚本，按顺序调用管道的每一步。但核心部分是它在公司和团队内部是标准化的。

深度学习的重生:人工智能平台🏆

AI Platforms standardize your way of working, abstract away unnecessary complexities and give you the power to move from idea to solution at the speed of a Shinkansen!🚄

为了给机器学习带来清晰度和结构，技术独角兽一直在构建自己的总体平台，将解决方案与上述所有挑战联系在一起，通常是以人工智能平台的形式，包括库、机器编排、版本控制、管道管理和部署。

FBLearner Flow 是脸书的统一平台，用于协调整个公司的机器和工作流程。 BigHead 是 AirBnB 的机器学习平台，用于标准化生产方式，主要基于 Apache Spark 构建。米开朗基罗是优步的机器配器和 ML 训练平台，用于快速训练 ML 模型。

对于谷歌、网飞和几乎所有规模较大的公司来说也是如此，它们都明白通过快速建模可以获得竞争优势。

但是我们其他人呢？对于那些不能投入 10 个人年来构建我们自己的流程编排，但今天就需要结果的人来说，该怎么办？

Valohai 是 FBLearner Flow，BigHead 和 Michelangelo 对科技独角兽的意义，但却是为我们其他人建造的。它是一个基于云的服务，可以在 AWS、GCP、Azure 或你的内部服务器群上运行。Valohai 允许您在云中运行您的模型，就像您在本地主机上作为单独的步骤或流水线工作流运行它们一样。它会自动拍摄每次训练运行的快照，以便您可以随时获取生产中运行的模型(在 Valohai 的可扩展 Kubernetes 集群上)，单击一个按钮并追溯到它是如何训练的、由谁训练的、使用了哪些训练数据、代码的哪个版本等等。

然而，瓦罗海并不是你唯一的选择——你可以自己建造很多。重要的是你要确保快速的实验，实验的可重复性和标准化的工作方式。但真正的问题是，你是想上路跑步还是想从设计和制作自己的跑鞋开始？

最初发表于blog.valohai.com。

机器学习模型从建立到再训练的旅程

原文：towardsdatascience.com/the-journey…

这篇文章摘自我们的解决方案教程，它将带你完成构建预测机器学习模型的过程，将其部署为应用程序中使用的 API，测试该模型，并用反馈数据重新训练该模型。所有这一切都发生在 IBM Cloud 上的集成和统一的自助服务体验中。

Architecture Diagram

在这篇文章中，著名的鸢尾花数据集被用于创建一个机器学习模型来对花卉物种进行分类。

在机器学习的术语中，分类被认为是监督学习的一个实例，即在正确识别的观察值的训练集可用的情况下的学习。

将数据导入项目

项目是你如何组织你的资源，以实现沃森数据平台的特定目标。您的项目资源可以包括数据、合作者和分析工具，如 Jupyter 笔记本和机器学习模型。

您可以创建一个项目来添加数据，并在 data refiner 中打开一个数据资产来清理和调整您的数据。

创建项目:

进入 IBM Cloud 目录，在 AI 部分下选择 Watson Studio 。创建服务。点击开始按钮，启动沃森工作室仪表盘。

Watson Studio Landing page

2.创建新项目选择完成。点击确定。为项目添加一个名称，如iris_project和可选描述。

3.因为没有机密数据，所以不要勾选限制谁可以成为协作者复选框。

4.在定义存储下，点击添加并选择一个现有的对象存储服务或创建一个新的服务(选择 Lite plan > Create)。点击刷新查看创建的服务。

5.点击创建。新项目打开，您可以开始向其中添加资源。

导入数据:

如前所述，您将使用虹膜数据集。Iris 数据集在 r . a . Fisher 1936 年的经典论文中使用，在分类问题中使用多种测量，也可以在 UCI 机器学习知识库中找到。这个小数据集通常用于测试机器学习算法和可视化。目的是通过测量萼片和花瓣的长度和宽度，将鸢尾花分为三个种类(刚毛鸢尾、杂色鸢尾或海滨鸢尾)。iris 数据集包含 3 类，每类 50 个实例，其中每类涉及一种类型的 iris 植物。

Courtesy: DataCamp

下载 iris_initial.csv ，其中包含每个类的 40 个实例。您将使用每个类的其余 10 个实例来重新训练您的模型。

在项目中的资产下，点击查找并添加数据图标

2.在加载下，点击浏览并上传下载的iris_initial.csv。

3.添加之后，您应该会在项目的数据资产部分看到iris_initial.csv。单击名称以查看数据集的内容。

建立一个机器学习模型

回到资产概述，在型号下点击新型号。在对话框中，添加 iris-model 作为名称和可选描述。
在机器学习服务部分，点击关联一个机器学习服务实例将一个机器学习服务( Lite plan)绑定到您的项目。点击重新加载。

3.在 Spark Service 部分，点击Associate a IBM Analytics for Apache Spark instance将 Apache Spark Service(Liteplan)绑定到您的项目。点击重新加载。

4.选择模型生成器作为模型类型，选择手动手动创建模型。点击创建。

F 或者自动方法，你完全依赖自动数据准备(ADP)。对于手动方法，除了由 ADP 转换器处理的一些功能之外，您还可以添加和配置自己的估计器，这些估计器是分析中使用的算法。

5.在下一页，选择iris_initial.csv作为您的数据集，并点击下一个。

6.在选择技术页面上，基于添加的数据集，标签列和特征列被预填充。选择物种(字符串)作为您的标签列，选择花瓣 _ 长度(小数)和花瓣 _ 宽度(小数)作为您的特征列。

7.选择多类分类作为你建议的技术。

8.对于验证分割，配置以下设置:

训练: 50%，
测试 25%，
反对者: 25%

9.点击添加估算器并选择决策树分类器，然后添加。

你可以一次评估多个估值器。例如，您可以添加决策树分类器和随机森林分类器作为评估器来训练您的模型，并根据评估输出选择最佳拟合。

10.点击下一步训练模型。一旦看到已培训&已评估的状态，点击保存。

11.点击概述查看模型详情。

你的旅程不会在此停止。按照下面的步骤，您将把您的模型部署为一个 API，测试它并通过创建一个反馈数据连接来重新训练。

通往 NeurIPS 的旅程

原文：towardsdatascience.com/the-journey…

3 个月内从见面到在 NeurIPS 研讨会上演讲

今年劳拉·简·马丁纳斯和我在neur IPS的 ML4D 研讨会上发表了一篇虽小但令人兴奋的论文。我们两个三个月前在 Indaba 的深度学习上相遇，仅仅一个多月，我们就向工作室提交了一些东西。当我们的小论文被接受时，我们既兴奋又震惊。我们刚刚在 NeurIPS 度过了最后一周——这是我打算在 3 年时间内实现的目标，但现在已经实现了。我觉得有必要把这段旅程写下来，并分享那些让它成为可能的经验教训和人们。我想我们中的许多人并不觉得自己有价值或者没有准备好——也许是因为我们来自不同的背景或者来自一个不寻常的机构。这是一个告诉你如何去做的故事——不管你的背景如何。

种子

这一切都始于一颗热情的种子。甚至在我读理学硕士期间(关于一个完全不同的主题)，我已经开始接触研究人员来获取数据集，以便为非洲语言进行机器翻译。我不知道该怎么做，但我想做。我认为这源于一种通过相互理解将南非团结在一起的动力。由于缺乏公开可用的数据集、软件和研究人员的回应，我放弃了我的搜索。我继续在我的工作场所实际应用 NLP，希望有一天机器翻译可以成为我的工作重点。

One of my many unanswered pleas

催化剂

如果你还没有听说过深度学习 Indaba ，那么是时候赶上了。深度学习 Indaba 的目标是加强非洲的机器学习，他们是少数几个真正有办法在❤.机器学习领域改变多样性的运动之一我喜欢把英达巴看作是非洲惊人作品的催化剂。我可以整天谈论 Indaba，但我想强调今年 Indaba 的 3 个具体方面，它们促进了我们向 NeurIPS 的提交:

Kyunghyun Cho 和 Sebastian Ruder 的自然语言处理 talk 和 workshop 和 Cho 的序列模型 talk 。没有什么比这个领域的专家指导你读什么论文更好的了。这些列表是如何快速精通该领域的指南。不仅如此，他们是世界上我最喜欢的两个人，并且总是很乐意和我讨论他们的过程。
“如何撰写研究论文”研讨会由 Nando de Freitas 、Ulrich 帕凯、Stephan Gouws、Martin Arjovsky 和 Kyunghyun Cho 主持。从这个演讲中学到了很多东西，但有一点很突出:写一篇好的研究论文不是因为只有去斯坦福或牛津的人才会学到的特殊魔术——我们任何人都可以写出好的研究——即使没有著名的导师或博士学位。
会见我的合作者劳拉·简·马丁纳斯。关于劳拉有很多美好的事情，但我特别从她那里学到了一课——这是她写论文的哲学:如果你有一个想法，得到结果并写下来其实很简单——没有那么多单词或代码行。她说，如此多的研究人员已经放弃了写论文的想法——许多研究人员害怕被他们的工作所评判，因此从不提交任何东西。我认为她是对的。我记得以前每次写论文时我个人的焦虑，害怕被拒绝，害怕它会说我是一名研究人员。她的母亲和她以母女关系的身份参加了非洲各地的会议——这些论文意义不大，但它们确实提供了一个练习写论文的平台。做得越多，收获越大。

合作

谢天谢地，劳拉住在离我很远的一个城市。我们立即开始了每周一次的 NLP 阅读小组。前提很简单:选择一篇有意义的 NLP 论文(主要是按照 Cho 的建议)，阅读它，然后下周聚在一起，边喝啤酒、喝鸡尾酒、吃披萨边讨论它。我们发现，在一个月的时间里，我们已经深入讨论了许多神经机器翻译的关键论文。

我们梦想有工具将教育资源从英语翻译成任何一种非洲语言。我们有了为南部非洲语言的神经机器翻译技术做实验基线的想法，因为目前什么都不存在。因此，我们开始计划我们将提交给哪些会议——特别是我们正在关注的 Africatek ,因为他们会发现我们的工作是相关的。

就在那时，劳拉的一个朋友给我们发来了 NeurIPS ML4D 研讨会，我们注意到离截止日期还有 10 天。我们有 10 天的时间来写实验、得到结果和写论文。

喧嚣

我不知道该如何解释，除非用要点来说明这一过程有多简单(实际上，这是一场与时间的赛跑):

使用脸书的卷积序列对进行排序，使用谷歌的转换器使用来自 SADiLaR 的现有数据集进行英语到茨瓦纳语的翻译。
与此同时，我花了一天时间搜索以前的研究，以便与我们的结果进行比较——该领域的研究非常稀少，而且只使用了相对古老的技术
我们的结果可以与现有的研究相媲美——事实上，Transformer 模型展示了英语到茨瓦纳语翻译的最新性能。显然，这是光荣和非常幸运的，因为这种通向好结果的直接途径经常发生。
我们花了 8 个小时写了论文。这很容易，因为我们的研究有一个明确的目的，我们希望这篇论文传达的是:激励进一步研究使用现代技术来翻译资源匮乏的非洲语言，因为我们已经证明了这些技术有前途。
我们又花了 5 个小时编辑了它——其中一部分是在火车上——牢记我们在英达巴学到的教训
我们赶上了提交截止日期。

我们每天都查看电子邮件。不管我们是否会被接受，我们都为我们的小论文感到自豪——它写得很好，符合我们的研究目标，是我们新发现的合作的代表。很小，但是很刺激。如果它没有进入研讨会，我们将学习，在成果的基础上，争取下一次会议。

会议

我们被接纳进了车间！那是多么美妙的感觉啊！仍然有一些事情需要处理(机票，会议票，谢天谢地没有签证问题困扰着会议的其余部分)，但是在经历了很多的忙碌之后(感谢复古兔，ML4D 研讨会和我们在深度学习学院的联系)，我们最终找到了去蒙特利尔的路！

至于会议，我将在上面写一大堆帖子，但简单地说:我们会见了来自非洲和世界各地的潜在合作者，并建立了将持续一生的联系。这是一个令人难以置信的机会，可以与他们领域的顶尖研究人员互动并向他们学习。查看我即将发布的帖子，了解从# NeurIPS2018 中学到了什么。

Some Deep Learning Indaba and Black in AI crew at #NeurIPS. Photo by Muthoni Wanyoike

超越

这只是开始

甚至在被接受之前，我们就在全速继续我们的研究。我们已经取得了显著的进步，您可以在这里
能够参加神经科会议向我们展示了参加主要的 ML 会议的必要条件，所以现在我们把希望寄托在了 ICML ❤上
我们将与世界各地的研究人员合作，帮助我们为低资源语言转换神经机器翻译。

教训

你不需要有一个花哨的主管或与一个闪亮的学术机构有联系，就可以在神经科发表文章
如果你处于早期阶段，在尝试参加一个主要会议之前，不要回避参加一个研讨会。他们接受有希望的工作方式，并让你了解主要会议的要求。
练习写论文。将每份提交材料视为改进的机会。正如乌尔里希·帕凯所说:“作为一名研究员，你能得到的最有价值的东西，就是让另一名研究员阅读你的作品”
协作者加速学习和研究，所以协作。其影响似乎是指数级的。社区，社区，社区，社区…
和激励你的人在一起。
跟随您最喜欢的研究人员。他们将引导您度过目前 ML 研究中的信息超载问题。
有一个你想交流的故事。
相信自己能行——因为你能行。如果您不认为您可以，尽管尝试吧。你可能会发现你让自己大吃一惊