文本数据增强(data augmentation)nlpaug使用

812 阅读1分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

内容同:blog.csdn.net/yuhengshi/a…

环境

  • python==3.7
  • nlpaug==1.1.7

文档

nlpaug.readthedocs.io/en/latest/o… github.com/makcedward/…

安装

pip install numpy requests nlpaug

数据增强主要方式

zhuanlan.zhihu.com/p/150600950

nlpaug简单介绍

Support textual and audio input 针对文本数据增强,支持同义词替换、tfidf、拼写错误、随机删除插入、回译等。 详细见api 文档

nlpaug.readthedocs.io/en/latest/a…

使用Demo

import nlpaug.augmenter.word as naw
from nlpaug.flow import Sometimes

# 增强时,会保持下面列表中的内容不变。
stopwords = ["love", "i"]
synonym_aug = naw.SynonymAug(stopwords=stop_words)
spelling_aug = naw.SpellingAug(stopwords=stop_words, aug_p=0.1)
# 将多种数据增强方式融合
aug = Sometimes([synonym_aug, spelling_aug])
text = "i love apple. i was born in 2000. how are you?"
r = aug.augment(text, 2)