用机器学习挖掘警察合同中的昂贵条款报道团队收集了数千份警察工会合同，利用机器学习模型将合同文本数字化并转化为可计算的数值

如何发现新泽西州警察合同中昂贵的条款

要求警察问责的呼声包括对执法部门公共资金使用情况以及警官纪律处分方式的审查。《阿斯伯里帕克出版社》和某新闻机构调查了规范新泽西州工会警察部队与其所在城镇之间关系的集体谈判协议。

该州有565个自治市，其中一些与警察工会签订合同的自治市面积小至1平方英里。警察工会在全州范围内整合了他们的法律和集体谈判专业知识。

分析发现了许多合同条款的例子，专家称这些条款对为协议提供资金的资金短缺的城镇来说代价高昂。报道《警察如何通过工会合同获利数百万》阐述了给予警官的福利可能超出了城镇的负担能力，但由于铁板钉钉的合同语言和警察工会的权力，这些福利难以取消。其他条款可能使追究警官不当行为的责任变得更加困难。

《阿斯伯里帕克出版社》和某新闻机构的记者希望确定这些条款在全州的普遍程度。他们收集了数千份现行和过往的新泽西州警察工会合同，并开发了计算机程序和机器学习模型，以寻找专家称可能浪费纳税人金钱或妨碍纪律处分的示例条款。然后，他们利用这些样本来识别警察工会合同中的类似条款。

他们对245份近期和现行合同中的条款进行了量化分析。分析发现，在至少22个城镇，合同保证即将退休的高级警官享有数月带薪休假作为离职福利，称为“离职休假”。有26个城镇因警官极少或未请病假而提供每年一次的“完美出勤”激励奖金。在54个城镇，允许警官每年回售其未使用的病假，这种方式规避了该州对2010年后受聘的公共雇员设定的退休时一次性病假折现上限15,000美元的精神。

他们还发现了至少66条“过往惯例”条款，要求部门继续发放先前既定的福利。这种条款使得在正式合同谈判之外取消过去的福利（即使是那些从未以书面形式确立的福利）变得困难。他们还发现，至少有84个城镇保证警官可以获得“额外执勤”的工作机会，这是许多警官的额外收入来源。在19个案例中，合同保证无论额外执勤工作需要多长时间，都能获得最低小时数的工资。最后，他们发现在20个城镇的合同中规定，面临纪律处分的警官有权知道投诉人的姓名。

他们还估计，2019年，因警官未使用的病假和休假时间而欠他们的钱，给新泽西州各城镇带来的总负债至少为4.929亿美元。

以下，将描述如何收集数据、得出结论，以及所做的假设和分析的局限性。

数据收集

分析用的合同收集自新泽西州公共就业关系委员会的网站。公共雇主被要求向该委员会提交他们与公共雇员代表谈判达成的合同。该网站包含一个广泛的公共合同数据库，包括数十年来该州几乎所有自治市的警察工会合同。

他们下载了该网站上的所有6,366份合同及其相关元数据，例如合同的开始和结束日期、县和自治市以及相关方。然后，移除了任何不是为普通警官制定的公共部门合同。（代表消防员、教师和其他类型警察的工会谈判的合同也在该网站上。）剩下的合同构成了最初的分析对象，即2,957份新泽西州警察工会合同。

他们使用了所有合同（包括历史合同）的语言进行计算分析。但调查的重点是现行合同中的条款。因此，最终将条款的手动评估限制在245份可能仍然有效的合同上，即那些在2019年1月1日或之后生效的合同。这使得他们拥有的合同池覆盖了该州不到一半的市政机构。

文本数字化与清洗

使用某云服务商的视觉API，将数字图像PDF合同转换为机器可读的文本。然后训练了一种称为条件随机场的机器学习模型，以剔除无关文本，如封面页、签名页或目录，只留下感兴趣的合同文本。

句子分割与编码

使用句子作为分析的基本单位。使用语言处理库spaCy将每份合同的正文分割成单独的句子。然后，将每个超过三个单词的句子输入某机构的通用句子编码器，该编码器将它们从文本表示转换为数值表示。这些数值表示允许在计算上比较句子之间的含义相似性，而无需比较它们的文本。这在两个句子中使用的词语完全不同但含义相似时尤其有用。

收集代表性合同条款

上述过程使他们能够将收集到的合同转换为句子数据库。然后，在每个条款类别中，从整个数据库中识别出代表性的条款。他们审查的条款包括：

过往惯例条款：要求雇主继续向警官提供先前确立的福利，即使这些福利没有写入合同，除非新合同明确终止这些福利。
病假回售条款：允许警官将未使用的病假转换为现金或带薪休假。在某些情况下，这些条款可能规避了2010年的一项州法律，该法律规定在此日期之后受聘的员工在退休时的病假补偿上限为15,000美元。
职业生涯末期支付：要求城镇在警官服务满20或25年退休时，支付其数月工资作为离职福利。
额外执勤条款：管理城镇指派给其警官的兼职工作，这些工作已成为常规的现金来源。
投诉人身份披露规则：要求将投诉警官的人的姓名提供给正在接受调查的警官。

他们使用了两种策略来寻找这些条款的不同版本。首先为报道团队开发了一个查找工具，该工具可以接受任何句子作为输入，并从数据库中返回最相似的句子。从在报道中识别出的条款开始，使用此查找工具在数据中寻找语义相似但措辞或术语不同的条款。还使用了聚类算法自动将数据库中含义相似的句子分组，以查看已知条款是否与其他句子相关联。对于每个条款，重复此探索过程，直到无法在代表性条款集合中添加新的措辞为止。最终，为这些类别确定了数十个代表性条款。

评估合同

他们根据这些代表性条款评估了收集到的245份近期和现行合同。任何至少有一个句子与代表性条款高度相似的合同都被认为可能属于相应类别，并成为进一步审查的候选对象。

接下来，为了消除误报，手动审查并验证了候选句子出现的语言和上下文。为确保一致性，为每个类别定义了标准。如果过往惯例条款要求继续执行现行合同未涉及的、给予警官的过往福利，则将其标记。只要合同承认存在额外执勤的安排，就标记额外执勤条款。只有在文本明确要求的情况下，才计入赋予警官知道对其提出投诉的公民姓名的权利的条款。大多数合同只是规定警官将“被告知调查的性质”，很少有合同明确禁止向被投诉的警官披露投诉人的姓名。

病假与退休补偿类别是最复杂的。各城镇使用各种公式和分级计算来确定每位警官的福利金额。为保持一致，如果这些条款规避了2010年州法律的精神（该法律规定在此日期之后受聘的员工在整个职业生涯结束时的病假补偿不超过15,000美元），则重点关注它们。如果一份在2010年后谈判签订的合同允许病假回售福利，无论是现金形式还是带薪休假形式，在该合同下新聘用的警官在整个职业生涯中可能获得的金额超过15,000美元，则将其归入病假补偿类别。由于法律优先于允许职业生涯末期回售超过15，000美元上限的合同，因此将这些合同搁置一边。

计算未休假期的未来支付

在许多工会合同中，为未使用的病假和休假时间获得补偿是一项重要的福利，警察和其他市政雇员通常都能享受。许多在2010年法律之前受聘的雇员仍然享有这项福利。这些在退休时开出的支票有时会达到六位数的金额，因而成为新闻头条。主要从某州社区事务部网站获取的500多份预算文件的分析显示，2019年，新泽西州各城镇对员工未使用的休假时间负有9.386亿美元的负债，这是欠所有市政雇员的总金额。

随后，他们手动审查了这些文件中提到的机构，以确定其中有多少负债是专门针对执法部门雇员的。审查发现，全州各城镇的执法人员共欠4.929亿美元。然而，这低估了警察部门的实际负担，因为一些城镇没有说明总额在雇员中是如何分配的。

该州社区事务部的预算报告信息交换所缺少约40个城镇的2019年数据。他们从城镇网站和公共记录请求中为其中约30个城镇汇编了信息。

假设与局限性

他们审查了大量的警察工会合同，合同语言千差万别。以下是分析中做出的假设以及结论的局限性。

合同收集不完整

首先，所审查的合同全集并不完整。虽然全州的公共雇主都被要求向该委员会提交这些协议，但许多市政警察局在网站上没有现行合同。在许多情况下，市政当局尚未向该委员会提供这些协议。在其他情况下，如果未谈判达成替代协议，这些合同可能在到期后自动延续。手动检查每个市政当局的合同是否为现行合同是不切实际的，所以他们只查看了在我们设定的截止日期2019年1月1日之后到期的合同。也是在2020年7月抓取的合同全集，因此此后可能已有更新。

错误累积的风险

机器学习模型节省了手动审查的时间，但它们的结果必然不完美。图像到文本的转换并非完美无缺。像任何模型一样，他们训练用于剥离无关语言的模型也可能出错。在手动检查期间发现了一些错误，但阅读所有文件几乎是不可能的，并且会否定首先构建模型的好处。

在任何类似的数据处理流程中，这些错误都有可能累积，导致最终结果出现盲点，甚至是相当大的盲点。他们通过手动审查结果以排除误报，并通过随机抽样估算漏报率来解决这个问题。每个类别的漏报率都很低：过往惯例条款为15%，额外执勤条款为15%，要求披露投诉人身份的条款为3%。由于病假回售条款的复杂性，他们还决定手动审查所有相关合同。这些局限性是此类数据分析固有的，并非该项目独有。

此外，由于分析审查的合同仅包含能从该委员会网站获取的那些，它们可能无法代表新泽西州的所有合同。他们报告了使用特定合同条款的城镇的准确数字，但读者不应使用这些数据或分析来推断整个州的情况，或推断未纳入分析的城镇的情况。

评估病假折现条款

在确定特定条款是否违反法律精神时，他们还根据专家的指导做出了许多假设。对于形式多样的复杂病假回售条款类别尤其如此。如前所述，2010年的州法律规定，对于在该日期之后受聘的员工，退休时的病假回售上限为15,000美元。如果一项回售福利的结构可能通过漏洞违反法律精神，即允许年度回售，多年累积下来可能超过15，000美元，他们便将其计入统计。

他们搜索了允许将病假作为每年一次的可重复选择转换为福利的合同。累积的未使用病假可以转换为现金或带休假，或两者的组合。州法律不限制法律生效前受聘的警官的这些福利。因此，他们只统计那些允许法律生效后受聘的警官的年度病假福利超过15，000美元的合同。

他们评估了一名普通警官是否可以通过每年回售未使用的休假时间来规避州上限。为了计算典型警官的补偿金额，他们假设一名警官的职业生涯为20年，每天工作8小时，一年总计2，080小时，这是大多数合同中用于计算小时工资率的方法。通过筛选养老金数据，找到在职10年（即20年职业生涯中期）警官的基本工资，来估算典型警官的工资中位数。

假设一名警官在整个职业生涯中使用了其10%的病假天数（据他们与专家的对话，他们认为这是一个合理的假设），来计算可能的最大福利。

为了得出福利的最终美元价值，他们使用了每份合同中规定的公式。这些公式通常包括每年的病假小时数、回售的转换率（例如，回售两天病假换取一天工资或带薪休假），有时还包括这些可回售小时数的限制。在一些合同中，未使用的病假被折算为带薪休假。他们按照与上述相同的工资假设，计算了未使用病假转换为带薪休假的补偿金额。

在某些情况下，他们查阅了城镇的工资记录，以查看2010年后受聘的警官是否每年都在回售未使用的病假。在一个名为诺伍德的城镇，他们发现有四名警官通过年度病假回售已经超过了15，000美元的限额。在其他城镇，他们发现病假回售的方式如果继续下去，将使一些警官有望超过15，000美元的限额。FINISHED