用最常用英语词汇解析统计自然语言处理本文探讨了自然语言处理（NLP）的核心挑战，即让计算机理解人类语言的多义性与创造性。

统计自然语言处理与最常用的一千个英语单词

因为我们长时间从事相同的工作，有时会习惯于用大多数人不使用的词汇来谈论我们的工作。所以，这里换一种方式，用“事物解释者”的风格来阐述。

小时候，我最喜欢的电视节目里都有会说话的计算机。现在我长大了，仍然没有会说话的计算机。至少，不是真正意义上的交谈。我们可以让它们，比如说，发出声音——但我希望它们能告诉我们事情。我希望它们能听，能读。为什么这如此困难？

事实证明，我们说的几乎所有话都可能意味着许多许多不同的含义，但我们没有注意到，因为几乎所有那些含义都会显得奇怪、愚蠢或者根本不可能。如果我说：

我穿着连衣裙看了一场电影。

你会问我：

是你穿着连衣裙，还是电影在连衣裙里？

甚至连想到这个都很奇怪。但计算机可能会，因为存在其他类似的情况：

电视里播放着一个穿连衣裙的女孩。

无约束的词汇 如果有一个固定的限制，比如“人穿连衣裙”，而“电影不是人”，那么当有人谈论“润色剧本”时，系统该如何应对？即使以前从未有人这样说过，未来也可能有人会说。语言是创造性的，例外才是常态。

词语以另一种方式组合在一起。人们过去认为答案是告诉计算机海量的事实。但有一天你醒来，发现自己正在写下诸如“电影不穿连衣裙”这样的事实，然后你会疑惑这一切是怎么出错的。实际上，情况甚至更糟。不仅事实太多，而且其中大部分甚至根本不是真正的事实！

人们真的尝试过这种方法。我们已经发现，这个世界是由“如果”和“但是”构成的。

如今，我们只是给计算机看非常多非常多的单词。我们放弃了让它理解“连衣裙”是什么的尝试。我们让“连衣裙”只是几个字母。但如果它看到“连衣裙”经常出现在“女孩”周围（“女孩”也只是一些其他字母，而它们又出现在另一些其他字母周围），它就能做出很好的猜测。

它并不总是猜对，但我们可以知道它猜对的频率，我们可以想办法帮助它更好地学习。我们有一个数字，我们可以一点一点地慢慢让它变大。

无约束的词汇 专注于基准任务的潜在问题是古德哈特定律。人工智能社区意识到了这个问题，并在避免它方面做得很好。（我学到的一点是，如果你付钱给很多人去尝试，他们很擅长让一个数字变大。关键是要选择那些数字，当人们让这些数字变大时，他们不可避免地确实做了一些好事。这比听起来要难。有人说没有这样的数字。我让他们展示用其他方式做了多少好事，但他们从未能展示。）

我们需要做的不是告诉计算机事实，而是告诉它如何学习。

我们想出的让计算机说话、听或读得更好一点的想法，可以用来让它看得或计划得更好一点，反之亦然。一旦我们停止告诉它诸如“电影不穿连衣裙”这样的事情，事情就真正起飞了。

每一点工作仍然只能让我们的数字变大一点点，而且数字越大，提高就越难。但这总比没有进步要好。既然计算机已经能很好地阅读，我认为我们应该能够做相当了不起的事情。我们应该让它们读些什么？

关于作者 马修·洪尼巴尔，首席技术官，创始人马修是人工智能技术领域的领先专家。他于2009年完成博士学位，并随后花了5年时间发表关于最先进NLP系统的研究。他于2014年离开学术界，编写了spaCy并创立了某中心。