编辑 忆臻 公众号 | 机器学习算法与自然语言处理 yizhennotes
**1. ********Bert官方源码公开
终于是千呼万唤始出来,Google AI 发表于10月中旬的论文:
《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 》一下子在NLP领域击其千层浪。文中提出的BERT模型,在11项NLP任务(包括阅读理解,文本分类、推断,命名实体识别等)中都取得了start of art 的突破性成绩!
这个成绩着实吓死了一批研究人员,其中的一些任务也可以说宣布没有什么研究空间了。
截止发稿前,短短时间,BERT已经获得近8k star,可见其受关注程度。\
**2. ********项目仓库包含的内容\
- 用于BERT模型架构的TensorFlow代码(主要是标准的Transformer架构)。
- BERT-Base和BERT-Large模型小写和Cased版本的预训练检查点。
- 论文里微调试验的TensorFlow代码,比如SQuAD,MultiNLI和MRPC。
此项目库中的所有代码都可以直接用在CPU,GPU和云TPU上。
**3. ********大家关心的问题,是否支持其它语言(如汉语)
目前放出的预训练模型是英语的,我们大家肯定都会关心是否会有汉语或者其它语言预训练model的公布。
多语言模型支持的语言是维基百科上语料最大的前100种语言(泰语除外)。多语言模型也包含中文(和英文),但如果你的微调数据仅限中文,那么中文模型可能会产生更好的结果。
就是这里列出的1-60号语言:
meta.wikimedia.org/wiki/List_o…
**4. ********最后再看看BERT的屠榜和官方代码地址
作者公众号:
\
请关注和分享↓↓↓\
机器学习初学者\
QQ群:774999266或者654173748(二选一)
往期精彩回顾\