引
最近人工智能随着AlphaGo战胜李世乭这一事件的高关注度,重新掀起了一波新的关注高潮,有的说人工智能将会如何超越人类,有的说将会威胁到人类的生存和发展,种种声音都在表明人工智能的又一个春天即将到来,但很多学者认为媒体的过度炒作,会引发民众对人工智能不切实际地期待,从而导致人工智能寒冬的又一次到来。Yann Lecun作为上一个人工智能寒冬时期还在坚持做冷门的神经网络研究的人,他对AI有一个非常理性的认知。
最近几年在人工智能领域中大热的工程技术deep learning,将机器对图像,语音,人类语言的认知能力都提升了不少,前前后后也涌现出不少不仅仅是很cool而且是非常实用的应用,比如人脸识别,猫脸识别,无人车,语义搜索等等。其中,深度学习技术对图像和语音的影响最大,但对人类语言的理解(NLP)做的没有那么那么好。所以,不必太过鼓吹人工智能将会如何如何,民众的期待不应太过接近科幻电影,不然只能换来无尽的失望,从而导致寒冬的来临。
NLP是一个非常难的task,至今有很多的子task都没有得到太好的解决。虽然每天我们在arxiv上都可以看到update的paper,但大多数都是一些model上的小trick,在个别数据集上跑一些example,和baseline做一些对比,得到所谓的state-of-the-art结果,并没有真正深刻理解要解决的问题,所谓的唯model论。不久前,Christopher D. Manning在文章中写了这么一句话:
However, I would encourage everyone to think about problems, architectures, cognitive science, and the details of human language, how it is learned, processed, and how it changes, rather than just chasing state-of-the-art numbers on a benchmark task.
以上是一些简单的背景介绍,下面进入正题。
自动文摘(auto text summarization)是NLP中较难的技术,难点很多,至今并没有一个非常让人满意的、成熟的技术来解决这个问题。
想法
大家在查文献的时候,输入一个关键词之后,会返回一个paper列表,如果你只看paper的title可能会被一些标题党蒙骗,如果每篇paper都看abstract,时间会花太久,看着很烦。所以我在想,给rsarxiv添加一个功能,基于query的research survey生成。当你输入一个keyword之后,返回的结果不仅仅是paper列表,还有一个非常精炼的survey,你可以通过阅读survey了解到每篇paper的最核心工作,如果你感兴趣的话,可以进一步查看paper的具体内容。
基于这个idea,开始逐步地了解自动文摘技术,所以这一系列blog的目的是为了记录我在学习自动文摘过程中的一些点滴心得。
介绍
第一篇blog对自动文摘做一个简单的介绍。
自动文摘技术应用最广的领域在于新闻,由于新闻信息的过载,人们迫切地希望有这么一个工具可以帮助自己用最短的时间了解最多的最有用的新闻(为什么不直接看标题呢?因为很多新闻为了哗众取宠,故意将标题起的特别吸引人眼球,但却名不副实),因此就有了Yahoo 3000w? 收购summly的交易。另外,搜索引擎也是应用之一,基于query的自动文摘会帮助用户尽快地找到感兴趣的内容。前者是单文档摘要技术,后者是多文档摘要技术,后者较于前者会更加复杂一些。
自动文摘出现的重要原因之一是信息过载问题的困扰,(当然个性化推荐系统是解决信息过载的另外一个好的办法)另外一个重要原因是人工文摘的成本较高。可以想象,如果计算机有能力写出一个topic下的综述paper,也就不需要survey作者去花大量的时间来读和写了。
自动文摘要解决的问题描述很简单,就是用一些精炼的话来概括整篇文章的大意,用户通过阅读文摘就可以了解到原文要表达的意思。问题包括两种解决思路,一种是extractive,抽取式的,从原文中找到一些关键的句子,组合成一篇摘要;另外一种是abstractive,摘要式的,这需要计算机可以读懂原文的内容,并且用自己的意思将其表达出来。现阶段,相对成熟的是抽取式的方案,有很多很多的算法,也有一些baseline的测试,但得到的摘要效果差强人意,对后者的研究并不是很多,人类语言包括字、词、短语、句子、段落、文档这几个level,研究难度依次递增,理解句子、段落尚且困难,何况是文档,这是自动文摘最大的难点。
链接
工具推荐
RSarXiv 一个好用的arxiv cs paper推荐系统 网站地址 ios App下载:App Store 搜索rsarxiv即可获得