荷兰新冠发布会言语行为分析本研究创建了一个公开的荷兰新冠新闻发布会语料库，基于塞尔言语行为理论对句子进行标注。文章详细介

摘要

本文创建了一个公开的荷兰新冠新闻发布会语料库，所有句子均基于约翰·塞尔的言语行为分类体系进行了标注。该语料库包含了2020年3月6日至2021年4月20日期间举行的全部58场新闻发布会，共包含9,441条人工标注的句子。言语行为的标注方式一致，Krippendorff's alpha系数达到0.71。该语料库易于使用，元数据丰富，包含了词汇、句法、篇章（说话人、问题或回答）特征以及关于规定类型的信息。我们通过言语行为的使用情况来分析这些新闻发布会，深入了解言语行为随时间的变化、言语行为使用与现实世界现象的关系、新闻发布会的一般结构以及发言者之间的角色分工。研究发现，言语行为的使用与新闻发布会的类型（即放宽、收紧或中性）以及住院人数存在关联。不同言语行为类别在新闻发布会中有其偏好的位置，这表明存在一个通用的结构。发言者之间的角色分工明确。我们还研究了使用标注好的句子集来训练言语行为分类器，并利用最先进的Transformer模型RoBERTa达到了0.73的准确率和0.74的平均倒数排名。

1 引言

2019年12月，武汉发现了首例COVID-19（冠状病毒）病例。2020年1月30日，世界卫生组织（WHO）宣布该病毒疫情构成国际关注的突发公共卫生事件。2020年2月，荷兰发现了首例病例。对荷兰人来说，这是他们抗击大流行的开始。为了渡过这段困难时期，改变人们的行为被认为是必要的。荷兰政府通过新闻发布会来传达关于新冠病毒的信息和新规定。这些新闻发布会的主要目标之一是解决降低感染数量所必需的行为改变。这些新闻发布会已成为新冠病毒大流行的一个特征元素，需要来自心理学、传播学、流行病学、社会科学、语言学等多个领域的透彻科学分析。

新冠发布会对大量人群产生了直接影响。2020年收视率最高的10个电视节目都是新冠发布会，观众人数从860万到450万不等（荷兰总人口1800万，而每年新年夜收视率最高的10个节目有400万观众）。

本文主要有三个目标。第一，创建一个丰富、公开且易于使用的荷兰新冠新闻发布会语料库，并为每个句子提供词汇、句法和篇章信息。第二，使用言语行为理论分析这些新闻发布会，并将所使用的言语行为与荷兰疫情的进程联系起来。第三，测试使用监督机器学习来自动化句子言语行为标注任务的可行性。

本研究在句子层面，依据约翰·塞尔的言语行为分类：断言类、指令类、承诺类、表达类和宣告类，来分析这些新闻发布会。一个句子可以包含零个、一个或多个言语行为。分析这些新闻发布会中的言语行为可以提供多种见解。例如，筛选宣告类数据集将显示规定宣布的数量及过程。温和指令和强指令的比例可以洞悉政府代表在引导公民行为方面的策略。这又可以与其他国家（可能采取不同策略）的温和指令和强指令的比例进行比较。筛选承诺类数据将显示发言人的意图，而表达类可以表明所表达的情感投入。此外，我们可以利用言语行为来构建新闻发布会结构，并找出发言者所扮演的不同角色。

我们的主要研究问题是：言语行为在荷兰新冠新闻发布会中是如何体现的？这个问题又分为两个子问题：

SQ 1. 在荷兰新冠新闻发布会中，言语行为的识别效果如何？
SQ 2. 如何根据这些言语行为来描述荷兰新冠新闻发布会？
- SQ 2.1 新闻发布会的整体言语行为分布是怎样的？
- SQ 2.2 言语行为的分布如何随时间变化？
- SQ 2.3 言语行为分布与新冠现象（如感染人数或措施收紧/放宽）有何关联？
- SQ 2.4 言语行为类别在新闻发布会中是否有其偏好的位置？这在规定放宽或收紧的新闻发布会中是否有所不同？
- SQ 2.5 首相马克·吕特与卫生、福利和体育部长雨果·德容在使用言语行为上是否存在差异？

我们还将探究机器学习是否能加速标注过程。

本文结构如下。第2节回顾塞尔的言语行为理论并描述本文使用的言语行为，第3节包含相关工作。第4节描述数据、使用的方法和标注过程。第5节包含结果，第6节进行总结。附录包含所使用的标注协议。所有数据（包括原始数据、处理后的数据和标注数据）以及数据收集和分析脚本均永久保存在荷兰科学数据存储库DANS中，网址为 doi.org/10.17026/da…

主要贡献 我们的贡献是双重的，与我们的研究问题相对应。首先，我们将荷兰新冠发布会以结构良好、易于使用的格式，附带相关元数据，提供给研究界。对句子进行的言语行为标注质量良好，Krippendorf α 得分为0.71，并且我们能够在这些数据上训练出一个准确率为0.73的言语行为分类器，这也证明了标注的质量。其次，我们表明言语行为的使用与大流行的严重程度、宣布的措施类型以及发言者的角色有关。在新冠发布会所说的所有句子中，超过三分之一被归类为非断言类言语行为。言语行为在发布会中有着相当稳定且偏好的位置。

2 塞尔的言语行为理论

20世纪中叶，语言哲学家约翰·朗肖·奥斯汀阐述了他关于施为性话语的思想，以《如何以言行事》为题出版。约翰·塞尔在奥斯汀工作的基础上，提供了一个言语行为理论的通用框架，并对言语行为进行了更丰富、更详细的说明和结构划分。塞尔的五类言语行为包括：断言类、指令类、承诺类、表达类和宣告类。我们简要回顾一下它们是什么，并从我们的发布会语料库中提供一个例子。

断言类 通过断言类言语行为，说话人希望让听话人相信他对事物状态的看法。说话人陈述某事是真实的，或者将陈述对现实的某种表述。该陈述可以被评估为真或假。例如："De instroom en het aantal corona patiënten in de ziekenhuizen vlakken nu af."（医院中新冠患者的入院人数正在减少。）
指令类 指令类是说话人试图让听话人做某事，指涉未来的行为。听话人可以服从或不服从指令，指令可以是温和的或强硬的。温和指令的例子："Daarom roep ik iedereen op om wat vaker 's ochtends de boodschappen te doen, want dan is het een stuk rustiger in de winkels."（因此，我呼吁大家多选择上午购物，因为那时商店里会安静得多。）强指令的例子："Die mensen, die dus voor hun werk op pad zijn, moeten dan ook een werkgeversverklaring bij zich hebben."（那些因工作原因外出的人，必须随身携带雇主声明。）
承诺类 承诺类使说话人承诺将来采取某种行动。例如："En wie er niet aan voldoet en bijvoorbeeld toch klanten toelaat in de winkel, die wordt gesloten."（那些不遵守规定，例如仍允许顾客进入商店的人，将被关闭。）
表达类 通过表达类言语行为，说话人表达自己对事态的心理态度和情感，陈述自己的感受。例如："En daar heb ik ook zelf de afgelopen dagen enorm mee geworsteld."（我自己在过去几天里也对此非常挣扎。）
宣告类 宣告类通过口头陈述来改变世界。要使宣告类行为成功执行，说话人必须拥有某种背景特权，允许他宣布这种改变。说话人和听话人的地位以及他们的社会角色都起作用。例如："Vanaf woensdag 28 april mogen de buitenterrassen onder voorwaarden weer open van 12 tot 6 uur s'middags."（从4月28日星期三起，户外露台在符合条件下，可以从中午12点重新开放至下午6点。）

句子可以表达零个言语行为，也可以表达多个言语行为。在附录B的标注指南中，我们对这六种（区分了温和指令和强指令）不同的言语行为进行了形式化。

3 相关工作

由塞尔定义的言语行为结构已被许多人讨论和描述。这个结构也受到批评，例如，强调了其中的矛盾之处。然而，本研究的环境不是语言哲学性的，而是应用性的：我们想使用塞尔的言语行为分类法来构建一组极具影响力的文本。

相关工作报道了在商务电子邮件语料库中人工标注言语行为的过程，其目的是阐明商务电子邮件中言语行为的语言和篇章结构，并评估理论结构与现实世界数据的关联程度。使用的言语行为类别侧重于请求、承诺、情感表达和陈述，这些对应于塞尔分类法中的指令类、承诺类、表达类和断言类。

另有研究指出可供广泛研究社区使用的标注聊天语料库存在空白，其目标是构建一个可用于开发更复杂NLP应用的聊天语料库，并用词汇信息、句法信息和篇章信息进行标注。

还有研究使用监督机器学习方法将在线聊天帖子分类到言语行为类别中，他们使用前两到六个词及其词性标注作为特征，支持了聊天帖子中的前几个标记对帖子的言语行为类别具有很强预测性的假设。

有学者研究政治竞选文本中的语用学，分析每个话语的言语行为和目标对象，提出了一个2016年澳大利亚选举周期中媒体发布和演讲文稿的标注语料库，研究言语行为和目标对象的联合建模效果，以确定每个话语的意图，进而从竞选演讲和新闻稿中自动提取政治家的承诺。

针对留言板论坛的研究指出，这些论坛包含呈现事实信息的说明性句子和呈现交际行为的对话性句子。其目标是创建一个句子分类器，识别一个句子是否包含四种言语行为：承诺类、指令类、表达类和代表类（等同于断言类），由于宣告类在其数据中几乎不存在而被忽略。该研究在识别指令类和表达类方面取得了良好效果，但发现断言类和承诺类更难识别。

另一项研究为托业写作电子邮件任务开发了一个用于自动识别言语行为的计算模型，并在托业答题上测试了该模型，准确率达到79.28%，其分类侧重于请求、命令和承诺的子类，对应于塞尔分类法中的温和指令、强指令和承诺类。

有研究探讨了对话代理场景中的多种对话行为识别方法，并确定了有效和无效的方法，并针对识别出的一些问题提出了一种替代的对话行为识别方法，使用了更广泛的标注方案，即42个聚类的SWBD-DAMSL对话行为标签。

4 数据与方法

本节讨论所使用的数据和方法。第一小节描述了新闻发布会的收集过程，随后是创建语料库所用的方法。然后讨论标注过程和协议，以及如何衡量标注者间信度。在第三小节中，我们回顾了将发布会与新冠现实联系起来的额外元数据。

4.1 数据描述

4.1.1 数据收集

新闻发布会通过公共电视台直播，随后由政府官方网站转录并发布。共收集了60场新闻发布会，发布日期介于2020年3月6日至2021年4月20日之间。其中一场发布会是专门为回答儿童问题而设的，非常非正式，并有两位额外的主持人协助儿童和政府代表之间的沟通，这被视为异常值而被移除。2021年2月23日的发布会重复发布，也被移除，最终语料库包含58场发布会。

4.1.2 语料库创建

转录的发布会以HTML格式发布。对于每场发布会，提取日期和文字记录，并将所有口语文本部分分配给其说话人。使用NLTK将文本分割成句子。此外，在句子层面添加了以下元数据：在发布会中的序号、发布会日期、说话人、该说话人是部长还是记者、该句子是属于开场陈述部分还是问答环节、该句子是记者提问的一部分还是对问题的回答，如果是回答，则对应哪个问题。最后，使用SpaCy进行分词、词形还原、词性标注和组块分析。

4.1.3 语料库简要概述

该语料库包含2020年3月6日至2021年4月20日期间举行的58场新闻发布会。其中14场发布会宣布收紧新冠措施，7场宣布放宽。语料库包含5,548个段落，29,409个句子，528,703个词例，15,431个独立单词，以及11,083个独立词元。包含2,678个问答对。一个问题平均2个句子长，一个回答平均7个句子长。共有183位已识别的发言者，其中11位是政府官员，172位是记者（提问者）。

4.2 标注言语行为

我们人工标记了每个句子，赋予其零个、一个或多个言语行为。整个语料库包含近3万个句子。我们需做出选择，动机如下。在这些句子中，有5,500句是记者所说。由于本研究关注的是政府代表对言语行为的使用，因此记者所说的句子在标注过程中被忽略。在剩余的24,000个由政府代表所说的句子中，有5,749句用于新闻发布会的开场陈述，其余是对记者提问的回答。

然而，当这些发布会在电视上直播时，广播公司只播放开场陈述以及少量的问答。因此，标注过程也采取了同样的做法。由于发布会的目标是向公众传达关于COVID-19的信息和新规定，因此标注过程也侧重于公众实际能听到的句子。广播公司设定的截断点有些随意，大致在回答前十个问题之后。这导致我们人工标注的语料库包含9,441个句子。

我们使用了标注工具Prodigy。Prodigy提供了一个简单的界面，标注者看到一个句子并选择适用的言语行为。使用Prodigy大大加快了标注过程，使标注者能够以每小时约200个句子的速度进行标注。然而，标注过程仍然是一项耗时的工作，花费了大约50小时的有效标注时间。

4.2.1 标注协议

语料库由两位标注者进行标注。为确保标注的一致性（包括标注者之间），我们构建了一个标注协议。构建的协议符合塞尔的言语行为理论分类。由于塞尔指出了温和指令和强指令之间的区别，标注协议中也做了此区分。每个句子被分配零个、一个或多个言语行为类别。由于口语特性导致句子分割不正确或不完整的句子（例如，"Dus wij naar streven is om de..."）被拒绝/忽略。这种情况仅发生在37个句子上。完整的标注协议见附录。

4.2.2 标注质量

为了评估标注语料库的质量，使用Krippendorff's α计算了标注者间信度得分。计算时，前3场（共58场）新闻发布会由两位标注者共同标注（即9,441个句子中的622句）。Krippendorff's α定义为1 - Do/De，其中Do是分配给句子的值之间的观察差异，De是当赋值归因于偶然性而非句子属性时预期的差异。语料库可接受的α最小值通常取0.60。我们的标注可以包含多个标签。只有当两位标注者为同一句子识别出相同的言语行为集合（包括空集）时，才视为一致。这意味着，如果标注者A将一个句子识别为断言类和承诺类，而标注者B将其识别为承诺类，即使两位都识别出了承诺类，这个句子也会被视为不一致。这种最严格的衡量方式导致α得分为0.60。

编码者之间的主要差异在于话语的多标签标注上。如果只看两位编码者都给予单一标签的537个（共622个）话语，α为0.71。因此，一个重要的难点是多标签句子。总共有17种不同的言语行为组合出现在控制句子中（可能的组合有2^6=64种）。这些组合大多涉及断言类。有学者指出了间接或隐性言语行为中断言类的存在以及伴随这些话语的困难。由于间接言语行为通常以断言的方式表达，断言类常常伴随着其他言语行为。例如，"你踩到我的脚了"这句话，字面是断言类，但隐含了指令（把你的脚挪开）。按照这个例子，这句话是否应该标注为断言类还是断言指令类是标注者之间的主要分歧。因为话语的目的是指令类，所以可以认为这样的句子不应同时归类为断言类和指令类，而应仅归类为指令类。解决这个冲突后（即在这类多分类句子中移除断言类），标注者间信度得分提高到0.70。

从中得到的启示是，断言类与其他言语行为结合的标注是一个关注点。我们调整了协议，并使用改进后的标注指南对语料库进行标注。此后，这类断言类的标注在语料库中得到了一致应用，标注者在不确定某个话语的分类时持续互相协商。

4.3 新闻发布会的额外背景

我们将言语行为分布与两个现实世界现象联系起来。首先，通过阅读每场新闻发布会的开场陈述来确定其类型。宣布额外措施或收紧现有措施的发布会，被标记为收紧型发布会。在标注的发布会中，24%为收紧型。放宽现有措施的发布会，被标记为放宽型发布会（14%）。没有收紧或放宽措施（即措施延续）的发布会，被标记为中性的发布会（62%）。

我们还将言语行为的使用与荷兰国家公共卫生与环境研究所公布的COVID-19患者每日住院人数联系起来。图表显示了住院人数与发布会类型的结合。红线、绿线和灰线分别表示收紧型、放宽型和中性的发布会的存在。该图显示了在住院人数增加或高位时召开收紧型发布会，在住院人数减少或低位时召开放宽型发布会的总体趋势。第5.2.3节将详细阐述这些主题，并将它们与言语行为的使用联系起来。

5 结果

本节旨在回答研究问题。我们首先评估言语行为标注的质量。然后根据子问题，从言语行为的角度描述这些新闻发布会。最后评估机器学习言语行为分类器在减少标注时间和成本方面的效果。

5.1 在荷兰新冠新闻发布会中识别言语行为

第4.2.2节提到，对于单一标签句子，Krippendorff's α衡量的标注者间信度为0.71，对于所有句子为0.70。这通常被认为是一个可行的分数。

标注言语行为时有一些注意事项。隐性言语行为的困难已经讨论过。此外，正确的分类可能依赖于句子中不存在的上下文和世界知识，甚至整个文档中也可能没有。例如，考虑句子： "Je moet je echt wel houden aan datgene wat ook in de bijsluiter staat, waar ook de EMA zijn uitspraak over heeft gedaan."（你必须遵守（新冠疫苗的）说明书，这也是欧洲药品管理局所指出的。）从周围的句子可以推断，这句话是关于新冠疫苗说明书的。这句话似乎表明说话人坚持要听话人做某事，即遵守新冠疫苗的指示。没有任何上下文，会将其归类为指令类。然而，说话人所指的并非听话人能够影响的事情。也就是说，说话人指的是政府的疫苗接种政策。实际上，这句话是说话人强调遵守疫苗指示重要性的声明，而他自己对此负责。这样看来，这句话可以被视为一个（虽然是极其隐晦的，但毕竟是一位政治家在讲话）承诺类。

5.2 根据言语行为描述新闻发布会

我们现在根据标注的言语行为分析这些新闻发布会，涵盖五个主题。首先，看言语行为的整体分布。其次，看在疫情期间这种分布如何随时间变化。第三，将发现的分布与大流行的严重程度以及发布会的主要信息联系起来。第四，看某些言语行为是否在发布会有其偏好的位置。最后，看在发布会中的两位发言者（首相和卫生部长）的不同内阁角色是否反映在言语行为的不同使用上。

在深入这五个主题之前，需要注意一点：因为我们处理的是多标签句子，所有分布都是基于标注数量进行归一化的，而不是基于标注的句子数量。

5.2.1 整体言语行为分布

整体言语行为分布如图所示。正如预期，大多数标注是断言类。将温和指令和强指令合并考虑，指令类是第二大言语行为类别，且温和指令的使用多于强指令。政府代表更倾向于请求人民的合作，恳求遵守规定，而不是命令和指挥人民表现出某种行为。在2020年5月8日的一场新闻发布会上，首相马克·吕特表达了他对自己职位的看法："Ik wil helemaal niet de baas spelen hier, dat ben ik ook helemaal niet."（我根本不想在这里充当老板，我也根本不是老板。）

第三大言语行为类别是承诺类，其次是表达类。大约百分之六的句子没有被分配言语行为，因为它们不属于任何言语行为类别。

在这个分布图中最小也最值得注意的言语行为类别是宣告类。总共只有百分之三的标注是宣告类。宣告类指的是那些说话人需要一些背景特权才能通过口头陈述来宣布改变的话语。在发布会的背景下，这些话语涉及放宽、收紧和延长措施。与可能预期的相反，这些话语只反映了发布会中标注的一小部分，即百分之三。

5.2.2 言语行为分布随时间的变化

另一图表展示了每场发布会中言语行为的分布随时间的变化。可以将其视为一系列饼图序列。x轴是按时间顺序排列的，但与时间不成比例，因为大流行初期发布会更为频繁。附录中的图表以堆叠条形图的形式呈现相同信息，便于对特定发布会进行比较。

该图显示，分布随时间变化很大。总体而言，断言类保持主导地位，在2020年6月19日达到峰值，在2020年10月13日下降。温和指令经常出现。在2020年5月底和2020年7月底出现温和指令的峰值。然后，在2020年8月至12月期间，它们相当持续地存在，从1月底到2021年4月，其存在感略有减弱。强指令的出现不那么持续。它们主要出现在2020年3月底至6月，在2020年4月初达到峰值。在2020年夏季出现最少，在2020年秋季再次出现。承诺类和表达类相当持续地存在，但在某些时期也出现峰值。最后，再次注意到宣告类明显稀少。

下一小节将为其中的一些变化提供合理的解释。

5.2.3 言语行为分布与现实世界现象

既然我们已经看到言语行为分布随时间变化，那么探究现实世界现象是否是造成这些波动的原因就很有意思了。在本节中，我们将关注两个相关的现象。首先，考虑一场新闻发布会是放宽还是收紧规定，或者在这方面是中性的。其次，关注COVID-19患者的每日住院人数。

5.2.3.1 新闻发布会的类型 我们要考察的第一个相关现象是以放宽或收紧规定为特征的新闻发布会类型。在图中，宣布额外措施或收紧现有措施的发布会用红色虚线标记，而放宽规定的用绿色虚线标记。其余的发布会可被视为中性发布会，因为在这些发布会中规定没有放宽或收紧。

纵观所有虚线，大多数宣告类与虚线重叠。这意味着宣告类在宣布放宽或收紧规定的发布会中占比过高，正如预期的那样。

我们预计温和指令和强指令也有同样的过高占比，而断言类则相反：中性发布会的重点在于告知公众当前情况。对于表达类和承诺类，我们预计这两类发布会之间没有差异。

表格包含了按发布会类型分组后，每场发布会中标注有每种言语行为的句子比例，以及该差异是否显著。我们看到，直观的预期确实得到了图表的支持，且在统计上显著，并且我们还发现表达类在非中性发布会中也占比过高。

言语行为分布与每日住院人数的关系 在新冠住院人数的第一个高峰期（2020年3月至4月），新闻发布会包含了相对更多的温和指令和强指令。此外，这一时期出现了收紧型发布会。第一批新冠措施被宣布，体现在宣告类上。荷兰处于所谓的"智能封锁"状态。

在2020年5月、6月和7月期间，住院人数降至每日40人的警戒值以下。这一时期包含了放宽型发布会。然而，5月份的发布会仍有相当数量的指令类，起初强指令较多，随着时间的推移转向温和指令。温和指令存在的一个可能原因是，尽管措施放宽，但发言者觉得有必要继续要求人民遵守现有的基本核心规则。

2020年9月中旬，住院人数再次上升，超过了每日40人的警戒值。在此期间，温和指令和强指令的比例也开始增加。在8月的最后几周和9月的第一周，政府代表试图先用表达类和指令类引导人民。到9月中旬，他们采取了额外的收紧措施，这反映在宣告类数量的增加上。

2020年11月中旬，住院人数开始下降，导致11月17日举行了一场放宽型发布会。不久之后，12月中旬，住院人数再次上升。2020年12月14日，首相马克·吕特在"小塔楼"发表了特别讲话，宣布了严格的封锁。由于这次讲话不是新闻发布会，因此未发布在政府发布会网页上，故不在标注语料库中。

在2021年3月和4月期间，住院人数在1月和2月略有下降后再次上升。然而，在4月14日和20日，措施被放宽了。这些发布会也显示出相对较少的温和指令和强指令。这与上述趋势相悖。显然，这些发布会中还有其他因素在起作用。

5.2.4 言语行为在发布会中的位置

现在我们考察言语行为在发布会内部是否存在位置模式。为了理解这种"细读"方法，请看图中展示的一场发布会，它由一系列彩色条带组成，每个条带代表一个句子，颜色表示不同的言语行为。首先讨论这两场典型的发布会。

接着在另一张图中采用更宏观的视角，行是不同的发布会子集，列是6种言语行为。每个小图描绘了该言语行为在该子集发布会中，按发布会位置（以百分位数衡量）的绝对分布。注意y轴刻度在列和行之间都有所变化。但相对于绝对数字，我们更关注核密度估计线的形状。图中的行分别代表全部、放宽型、收紧型和中性的发布会。能观察到什么模式？

首先，第一列的宣告类。密度图显示，宣告类最常出现在发布会的前四分之一，大约在第20个百分位附近。这在所有类型的发布会中都显而易见。因此，宣告类在发布会中有一个偏好的位置，且这个位置不受发布会类型的影响。

其次，第二列的表达式。表达类主要出现在发布会的开头，在中间和结尾也出现一个小峰值。中间的峰值可能与德容部长中途开始他的介绍有关。这种模式在所有四类发布会中都很明显。因此，表达类在特定位置使用得更频繁。发布会类型不影响这些位置。

第三，承诺类。总的来说，承诺类更常出现在发布会的末尾。在放宽型发布会中，承诺类主要出现在开头，大约第30个百分位附近，并在发布会末尾的问答环节激增。在收紧型发布会中，承诺类主要出现在发布会末尾，大约第80个百分位附近。在之中性发布会中，承诺类没有明确的位置偏好。因此，承诺类有偏好的位置，但受发布会类型影响。

第四，温和指令和强指令。这两类指令都主要出现在发布会的开头。同样的模式适用于放宽型、收紧型和中性的发布会。指令类和宣告类主要在发布会的同一部分使用。

最后，断言类。总的来说，断言类分布相当均匀，但倾向于在发布会末尾使用更多。它们在25%百分位附近出现最少，而这正是承诺类和宣告类倾向出现最多的百分位。这种模式适用于所有发布会。

收紧型发布会的一般结构可以描述如下：首先使用一些表达类，接着是宣告类以及温和指令和强指令。这些宣告类和指令类随后通过断言类来解释，从这一点开始断言类持续存在。中途，使用额外的表达类。在发布会的下半场，使用承诺类，随后在结尾附近使用更多表达类。2021年1月20日的新闻发布会就是一个展现这种一般结构的例子。其彩色条码图展现了上述一般结构。

放宽型发布会的一般结构与收紧型发布会非常相似。主要区别在于承诺类的位置。在放宽型发布会中，承诺类更常出现在发布会的上半场。为2020年11月17日的放宽型发布会也构建了彩色条码图。再次看到，发布会开头有表达类，随后是宣告类以及温和指令和强指令。然后，这些通过断言类来解释，从这一点开始断言类持续存在。同样，表达类在中间和末尾使用。

比较这两个条码图时，收紧型和放宽型发布会在承诺类上的差异显而易见。放宽型发布会的条码图显示承诺类集中在第二个四分位和发布会末尾。收紧型发布会的条码图在第二个四分位没有承诺类，承诺类集中在第三个四分位。

5.2.5 吕特和德容在使用言语行为上的差异

本节将分析首相马克·吕特与卫生、福利和体育部长雨果·德容在使用言语行为上的差异。吕特和德容是发布会中两位主要的政府代表。在发布会中，吕特和德容的发言句子数量并不总是相同。因此，为了比较这两位发言者的言语行为使用情况，言语行为标注的数量根据每位发言者的总标注数进行了归一化。比较了两位发言者同时出席的发布会中的言语行为使用情况。对于每场这样的发布会，计算德容的言语行为比例减去吕特的比例。因此，蓝色（正）条表示吕特使用过多，红色（负）条表示德容使用过多。

图表显示，在大多数发布会中，德容的断言类比例高于吕特。另一图表显示，德容的承诺类比例更经常更高。关于表达类、宣告类、温和指令和强指令的图表显示，对于这些言语行为，吕特的比例更经常高于德容。

可以得出的结论是，德容经常负责使用断言类向公众通报当前情况。此外，他经常负责使用承诺类阐述政府在医疗事务上的未来步骤，如检测设施和疫苗接种计划。这符合他作为卫生、福利和体育部长的职能。此外，吕特主要负责宣布规定，这体现在宣告类上。此外，他负责通过结合使用温和指令、强指令和表达类，将人民的行为引导至期望的方向。这符合他作为首相的职能。

5.3 机器学习能否加速标注过程？

我们在标注过程中没有使用机器学习，但既然我们有了大量人工标记的句子，现在可以探讨这个问题。事实上，这一点很有意义，因为在撰写本文时，荷兰又发生了几次新冠发布会，我们可能希望更新已创建的语料库。

当前的机器学习问题是所谓的多标签、多类别文本分类的一个实例：我们可以为句子添加一个（可能为空）包含6种不同言语行为的集合。有两种应用机器学习的方式：让算法决定类别（不再需要人工参与），或者让算法给出一个排序的建议标签列表，然后由人工选择正确的标签。第一种方式能最大程度地降低（标注）成本，但可能损失标注质量。第二种方式仍然会有实质性的标注成本，但可能不会损失质量。

我们将研究这两种情况，并观察人工标记的训练数据量对得分的影响。对于第一种情况，我们只需计算分类器的准确率（正确的频率）；对于第二种情况，我们计算正确类别的倒数排名（即1除以正确类别的排名），并取所有言语行为类别的平均值（宏平均）或测试集中所有句子的平均值（微平均）。为简化指标的解释，我们的实验仅针对被标记为零个或最多一个言语行为的句子进行。

我们测试了两种文本分类方法。首先，一个常用的强基线方法，即在TF-IDF加权的单词unigrams和bigrams上进行逻辑回归。其次，一个基于文本嵌入的最先进的文本分类算法，即基于荷兰语语料库训练的Roberta。我们的实验设置简单且现实。我们按时间顺序对所有标记的句子进行排序。总是使用最后20%作为测试集，并将训练集从前20%变化到前80%，步长为20%。我们使用网格搜索在训练集上寻找最优超参数。实验设置的详细信息和更详细的结果可以在本文所属数据集存储库中的SpeechActClassifier笔记本中找到。

我们总结了发现。当看准确率时，两种分类方法表现几乎相同，使用40%的训练数据就已经达到了接近最大的准确率。两种分类器倾向于犯同样的错误：将五种言语行为之一误分类为（多数类）断言类。

第二种情况用平均倒数排名来评估。微平均是对所有句子取平均值，因此受多数类断言类主导。宏平均是对所有7个类别的平均倒数排名取平均值，鉴于我们预期的排名用途，这是更有意义的度量。表格包含了关键结果。我们看到，在80%的训练数据下，两种分类器的微平均得分相同，为0.83，但宏平均MRR得分却大不相同（逻辑回归为0.62，RoBERTa为0.74）。基于语义的文本嵌入分类器在分类各个类别上比仅使用词汇信息的逻辑回归表现更好。附录中的表格详细列出了每个言语行为的得分。在这里可以看到，所有类别在使用RoBERTa时的得分都（远）高于使用逻辑回归，无论训练样本量多少，但代价是多数类断言类的得分。这解释了在微平均倒数排名相同的情况下，宏平均倒数排名的大幅提升。

使用RoBERTa，即使只有20%的训练数据，所有言语行为类别的MRR也至少达到0.5。由于排名第一的正确类别得1分，排名第二得半分，MRR高于0.5意味着平均而言，正确类别出现在前两位。可以得出结论，如果需要高质量的标签，一种双人标注系统，即由基于RoBERTa的算法为每个句子对言语行为类别进行排序，再由人工纠正判断，将能很好地工作并节省标注时间，即使训练数据相对较少也是如此。

6 结论

在这项工作中，我们对2020年3月至2021年4月期间的荷兰新冠发布会进行了标注，并根据塞尔的言语行为分类法进行了分析。该语料库已公开提供。我们简要回顾一下主要发现。

所创建的语料库是人工标注的。根据标注者间信度得分，言语行为的识别是一致且充分的。在识别言语行为时，隐性言语行为中的断言类使用、"双重言语行为"以及话语分类可能依赖于上下文的事实是需要关注的点。

每场发布会的言语行为分布与其类型相关。断言类在中性发布会中的使用多于在放宽或收紧的发布会中。因此，中性发布会的重点是告知公众当前情况。放宽或收紧发布会的重点在于宣布规定的变更，这由更高的宣告类数量所显示。

言语行为分布也受住院人数的影响。在住院人数高的时候，发布会是收紧型的，并且存在更多的温和指令和强指令。在2020年夏季住院人数低的时期，发布会是放宽型的，随着时间的推移，强指令的存在感减弱，而温和指令的存在感保持高位。这表明，当住院人数高时，发言者是在命令、指挥和坚持要求听话人遵守规定，而不是在住院人数较低时的请求和恳求。

新闻发布会具有一般结构，言语行为在其中有其偏好的位置。

言语行为显示出发言者具有独特的角色。首相吕特主要负责宣布规定，这体现在他对宣告类的使用上。此外，他负责通过结合使用温和指令、强指令和表达类，将人民的行为引导至期望的方向。卫生部长德容经常负责使用断言类向人民通报当前情况。此外，他经常负责使用承诺类阐述政府在医疗事务上的未来步骤，如检测设施和疫苗接种计划。

最后，我们展示了机器学习言语行为分类器在新冠发布会上下文中的潜力。基线和最先进的分类器在准确率上得分相同，均为0.73，这是一个合理但不够充分的分数。最先进的分类器在对给定句子的言语行为类别进行排序方面表现更好，正确类别平均位于第一或第二位。FINISHED