用最常用英语词汇解析统计自然语言处理

0 阅读4分钟

统计自然语言处理与最常用的一千个英语单词

因为我们长时间从事相同的工作,有时会习惯于用大多数人不使用的词汇来谈论我们的工作。所以,这里换一种方式,用“事物解释者”的风格来阐述。

小时候,我最喜欢的电视节目里都有会说话的计算机。现在我长大了,仍然没有会说话的计算机。至少,不是真正意义上的交谈。我们可以让它们,比如说,发出声音——但我希望它们能告诉我们事情。我希望它们能听,能读。为什么这如此困难?

事实证明,我们说的几乎所有话都可能意味着许多许多不同的含义,但我们没有注意到,因为几乎所有那些含义都会显得奇怪、愚蠢或者根本不可能。如果我说:

我穿着连衣裙看了一场电影。

你会问我:

是你穿着连衣裙,还是电影在连衣裙里?

甚至连想到这个都很奇怪。但计算机可能会,因为存在其他类似的情况:

电视里播放着一个穿连衣裙的女孩。

无约束的词汇 如果有一个固定的限制,比如“人穿连衣裙”,而“电影不是人”,那么当有人谈论“润色剧本”时,系统该如何应对?即使以前从未有人这样说过,未来也可能有人会说。语言是创造性的,例外才是常态。

词语以另一种方式组合在一起。人们过去认为答案是告诉计算机海量的事实。但有一天你醒来,发现自己正在写下诸如“电影不穿连衣裙”这样的事实,然后你会疑惑这一切是怎么出错的。实际上,情况甚至更糟。不仅事实太多,而且其中大部分甚至根本不是真正的事实!

人们真的尝试过这种方法。我们已经发现,这个世界是由“如果”和“但是”构成的。

如今,我们只是给计算机看非常多非常多的单词。我们放弃了让它理解“连衣裙”是什么的尝试。我们让“连衣裙”只是几个字母。但如果它看到“连衣裙”经常出现在“女孩”周围(“女孩”也只是一些其他字母,而它们又出现在另一些其他字母周围),它就能做出很好的猜测。

它并不总是猜对,但我们可以知道它猜对的频率,我们可以想办法帮助它更好地学习。我们有一个数字,我们可以一点一点地慢慢让它变大。

无约束的词汇 专注于基准任务的潜在问题是古德哈特定律。人工智能社区意识到了这个问题,并在避免它方面做得很好。 (我学到的一点是,如果你付钱给很多人去尝试,他们很擅长让一个数字变大。关键是要选择那些数字,当人们让这些数字变大时,他们不可避免地确实做了一些好事。这比听起来要难。有人说没有这样的数字。我让他们展示用其他方式做了多少好事,但他们从未能展示。)

我们需要做的不是告诉计算机事实,而是告诉它如何学习。

我们想出的让计算机说话、听或读得更好一点的想法,可以用来让它看得或计划得更好一点,反之亦然。一旦我们停止告诉它诸如“电影不穿连衣裙”这样的事情,事情就真正起飞了。

每一点工作仍然只能让我们的数字变大一点点,而且数字越大,提高就越难。但这总比没有进步要好。既然计算机已经能很好地阅读,我认为我们应该能够做相当了不起的事情。我们应该让它们读些什么?

关于作者 马修·洪尼巴尔,首席技术官,创始人 马修是人工智能技术领域的领先专家。他于2009年完成博士学位,并随后花了5年时间发表关于最先进NLP系统的研究。他于2014年离开学术界,编写了spaCy并创立了某中心。