机器如何写出人类般流畅的文章
某机构机器学习研究员焦孙致力于开发控制文本生成的策略。
作者:Mariana Lenharo 2022年12月13日 5分钟阅读
如果人工智能可以帮助一位有抱负的作家写小说呢?或者指导人们提高他们的写作质量?机器能学会讲笑话吗?受这些问题的启发,计算机科学家焦孙在南加州大学攻读博士期间,一直在探索AI生成文本的潜力。在去年春天于Alexa AI完成为期四个月的实习后,她作为2022-23学年的某机构机器学习研究员开始了新的旅程,并希望继续开发能够增强人与AI之间交互的文本生成模型。
[图片1: 焦孙头像] 焦孙作为南加州大学的博士生,一直在探索AI生成文本的潜力。去年春天在Alexa AI实习后,她开始了作为2022-23学年某机构机器学习研究员的旅程。图片来源:焦孙
虽然焦孙对自然语言生成的潜力充满热情,但她同样认为开发能够增强人类对机器生成内容进行控制的工具非常重要。对于文本生成模型的日益普及,她也持谨慎乐观的态度。"我很高兴近年来在文本生成领域看到越来越多优秀的模型,"她说。"这可以为文本生成领域激发更多创新,但也可能淘汰一些研究,甚至某些研究方向。就我个人而言,我的研究哲学是从事那些不依赖于特定模型选择且本身具有创造性的研究。"
她的研究目标之一是提高这些内容的质量、公平性和可靠性,以实现她所谓的"可信文本生成"。例如,她与同事最近调查了由人类和机器撰写的贺卡信息中存在的性别刻板印象。这项研究——在2022年CHI计算系统中的人为因素国际会议上获得了最佳论文荣誉提名奖——促成了一种写作辅助工具的开发,以对抗这些偏见。
[相关链接:Alexa新交互式故事创作体验背后的科学]
焦孙解释说:"这非常重要,因为我们可以看到机器有潜力生成很酷的东西,但我们不希望它们随心所欲地创造任何东西。我们需要确保机器生成的内容是公平的、有依据的,并且我们希望人类能够控制这些输出。"
保护作者的隐私
焦孙的研究员生涯仍处于早期阶段,但她希望在项目期间探索的一个研究领域是使用AI来确保作者隐私,她认为这是可信文本生成的另一个方面。她指出,自然语言处理技术可以根据作者的写作风格推断文章和文档的作者身份,特别是如果该作者在网上发表了多篇文章。但如果作者出于某种原因希望保持匿名呢?
"我们正在思考如何改写文本,使其既能保持原意,又能保护作者身份,"焦孙说。这个想法是开发能够重新组织内容的AI模型,以移除可能暴露作者身份的风格化"指纹"。
[图片2: 焦孙在EMNLP会议] 得益于某机构的旅行资助,焦孙得以亲自参加最近在阿布扎比举行的EMNLP 2022会议,并在会上展示了她的研究成果。"这笔资助让我有机会参加我整个博士生涯中的第一次线下会议,"她说。图片来源:焦孙
在项目期间,某机构Alexa AI的应用科学家Qian Hu担任焦孙的导师,定期与她联系讨论研究。"这不仅对我的职业生涯有帮助,而且与另一位聪明人建立联系有助于我将研究引向正确的方向,"她说。
某机构机器学习奖学金是由南加州大学+某机构安全可信机器学习中心每年向博士生提供的项目。除了焦孙,Sina Shaham和Yunhao Ge也是本学年的机器学习研究员。
'寿司对蜜蜂说了什么?'
去年春天在某机构实习期间,焦孙与某机构的科学家Alessandra Cervone、Anjali Narayan-Chen、Tagyoung Chung、Shuyang Gao、Jing Huang、Yang Liu、Shereen Oraby以及访问学者Violet Peng合作撰写的两篇论文,被2022年自然语言处理经验方法会议接收。
"在实习期间,他们给了我很多非常宝贵的反馈。即使在我的实习结束后,他们也一直支持我。"
这两篇论文都探讨了向机器解释幽默这一具有挑战性的任务。焦孙指出,理解简单双关语所需的知识常常被认为是理所当然的。但想象一下,要向一个非母语者或小孩解释一个文字游戏。"要让机器理解笑话,它们需要从庞大的知识库中学习,"她说。
焦孙和她的合著者首先开发了一个包含双关语关键词和解释的数据集,恰如其分地命名为ExPUNations。她基于一个现有的双关语数据集开展工作,要求标注者评估给定的文本是否意在成为笑话,对他们来说有多有趣,以及有趣的地方在哪里。以这个笑话为例:"寿司对蜜蜂说了什么?'Wasabi。'" "如果我是一名标注者,我会说这很有趣,因为wasabi听起来像'What's up, bee?'这就是它的趣味所在,"焦孙说。标注者还被要求选出双关语的关键词。在这个例子中,关键词是"sushi"、"bee"和"wasabi"。
[相关链接:AWS CodeWhisperer 从自然语言创建计算机代码]
焦孙解释道:"我们不仅收集了双关语本身的解释,还收集了人类进行推理得出该解释所需的基本事实。"结果形成了一个增强的数据集,可用于训练模型来解释双关语,并基于关键词生成新的双关语。
焦孙作为某机构实习生开发的第二项工作旨在基于给定的情境生成双关语。她和合著者解释说,以往的双关语生成研究通常选择一个给定的双关词作为起点来生成合适的笑话。而在她的研究中,起点是情境,即笑话发生的给定场景。最初的目标是识别适合该情境的双关词,然后生成适合该场景的双关语。"有了双关词之后,我们将情境和双关词结合起来,生成一个真正有趣的双关语,"焦孙说。
人工评估显示,系统检索出的双关词中,69%可用于生成情境双关语。对于合理的情境和双关词配对,系统有31%的概率能成功生成双关语。
得益于某机构的旅行资助,焦孙得以在阿布扎比的EMNLP会议上亲自展示她的研究成果。"这笔资助让我有机会参加我整个博士生涯中的第一次线下会议,"她说。"疫情已经持续三年了,所以我非常感激。而且我很快就要毕业了,所以这是一个与同行见面的绝佳机会。"
焦孙相信,这类研究可以增强人们在与AI互动时的参与感。"如果你在和Alexa聊天,它能理解情境,并给你讲一个适合该情境的笑话,那岂不是太酷了?"她憧憬道。FINISHED