2021年十大高下载量计算机科学研究论文本文汇总了2021年某机构科学网站上阅读量最高的十篇研究论文，内容涵盖了使用轻量

使用轻量级形式化方法验证某中心S3中的键值存储节点

"本文报告了我们应用轻量级形式化方法验证ShardStore正确性的经验，ShardStore是某中心S3云对象存储服务中一个新的键值存储节点实现。

在ACM操作系统原理研讨会上，作者们荣获了最佳论文奖。James Bornholt撰文介绍了该论文如何描述用于验证新S3数据存储服务的轻量级形式化方法。

所谓'轻量级形式化方法'，我们指的是一种务实的验证方法，用于验证一个正处于功能持续开发状态、并由全职工程团队维护的生产存储节点的正确性。我们的目标并非实现完整的形式化验证，而是强调自动化、可用性，以及在软件及其规范随时间演变时持续确保正确性的能力。"

时间序列中存在潜在共同原因时因果特征选择的充要条件

"我们研究了存在隐变量时时间序列中直接和间接原因的识别问题，并提出了一种基于约束的因果特征选择方法，我们证明了该方法在某些图约束下是既完备又可靠的。

我们的理论和估计算法仅需对每个观测到的候选时间序列进行两次条件独立性检验，即可确定它是否是观测目标时间序列的原因。此外，我们对条件集的选择方式有助于提高信噪比。我们将该方法应用于真实数据，并在广泛的模拟实验上进行了测试，结果显示出极低的假阳性率和相对较低的假阴性率。"

将包裹送至正确地点：用于地理定位的监督式机器学习

"某中心'最后一公里'团队致力于利用过去配送中报告的有噪声的GPS位置，为每个地址学习准确的配送点。质心和其他中心查找方法效果不佳，因为噪声存在持续的偏差。

该问题需要监督式机器学习，但具体如何实现？我们通过从信息检索领域引入'学习排序'方法的新颖改编来解决这一问题。这还实现了来自地图图层的信息融合。离线实验显示了其在减少误差距离方面的卓越表现，在线实验则预估每年可节省数百万美元。"

立场声明：使用多模态深度学习减少某中心的包装浪费

"自2015年以来，某中心已将其外包装重量减少了36%，在全球范围内消除了超过100万吨的包装材料，相当于超过20亿个运输箱，从而在其履行供应链的各个环节降低了碳足迹。在这篇立场声明中，我们分享了利用深度学习为庞大产品目录中的每个商品确定最适合的包装类型（以确保其完好无损地送达、令客户满意并减少包装浪费）的见解。融合包括产品图像在内的多模态数据以及处理类别不平衡的技术，对于提升模型性能至关重要。"

概率预测：一种水平集方法

"过去几年，大规模时间序列面板数据在零售、运营指标、物联网和医疗等领域变得无处不在。这导致了对预测技术的需求，这些技术能够通过利用每个面板中的所有时间序列进行学习，从而有效地利用所有可用数据。在预测技术的理想属性中，能够生成概率预测的能力名列前茅。因此，本文提出了水平集预测器，这是一种简单而有效的通用方法，可以将点估计器转换为概率估计器。通过认识到我们的算法与随机森林和分位数回归森林的联系，我们能够在关于底层点估计器的温和假设下证明我们方法的一致性保证。作为一个附带成果，我们首次证明了在CART分裂准则下分位数回归森林的一致性结果。实证实验表明，我们的方法以基于树的模型作为点估计器，在预测准确性方面可以与最先进的深度学习模型相媲美。"

用于降低对话系统摩擦的上下文重述检测

"对于Alexa、Google Assistant和Siri等语音助手来说，正确解读用户的意图至关重要。然而，用户有时会因为这些助手的不同组件产生的错误或用户自身的错误（如口误）而遇到障碍。用户往往会重新表述他们的查询，直到获得满意的响应。重述检测用于识别这些重新表述的查询，长期以来一直被视为一个需要成对输入的任务，这并未充分利用上下文信息。为此，我们提出了一种上下文重述检测模型ContReph，用于从多轮对话中自动识别重述。我们展示了如何利用对话上下文和用户-助手交互信号，包括用户的隐性反馈和不同轮次之间的时间间隔，这些信号能够帮助显著超越成对重述检测模型的表现。"FINISHED