[⭐趣玩]有潜力用于NLP任务的反向词典网站

1,834 阅读2分钟

「这是我参与11月更文挑战的第12天,活动详情查看:2021最后一次更文挑战

本文介绍一个清华大学开源的一个在线反向词典 万词王

网站名称:wantwords.thunlp.org/home/

源码地址:github.com/thunlp/Want…

何为反向词典?反向词典的意思不是提供反义词的词典,而是提供查询词定义的常规(正向)词典相反的,在语义上与查询描述匹配的词。

反向词典有什么作用呢?

官网给出的作用:

  • Solve the tip-of-the-tongue problem, the phenomenon of failing to retrieve a word from memory 解决舌尖问题,(舌尖问题是一个心理学问题,拿现实生活举例,比方说一些平时很简单、很熟悉的字、单词或公式等话到嘴边就是无法记起,考试过后却突然忆起。)
  • Help new language learners 帮助语言学习新手
  • Help word selection (or word dictionary) anomia patients, people who can recognize and describe an object but fail to name it due to neurological disorder 帮助失语症患者

在NLP领域中常常会使用同近义词替换、文本改写、文本替换做数据增强,开源的词典库往往成为数据增强最好的语料。

该词典支持,中文、英文独立查询,并且还支持汉-英、英-汉转换查询

太棒了这个单词为例子,可以看到返回了一些有趣的例子,有一些和微博评论、梗有关。

官方建议配合搜索筛选器能得到更好的结果。

筛选包含简单的字数、笔画数和拼音,也包含复杂的词形、韵脚等。这对诗歌生成、歌词生成应该也会有一些用处。

我们筛选不小于4字的词,出现的基本都是四字成语,也会出现诸如人逢喜事精神爽惊天地泣鬼神这样的短语

目前体验下来,查询到的词语挺有意思,可以作为语料库或者知识库,后续如果开放API调用,可以用于数据增强、文本匹配、文本生成、闲聊机器人,另外,英中/中英转换效果也很不错。