Google开发者博客：通过对等组分析识别侵入式移动应用详细了解 Google 在检测和防范 Android 潜在有害应

通过对等组分析识别侵入式移动应用

2017年7月18日星期二 发布人：Google 安全与隐私团队 Martin Pelikan、Giles Hogben 和 Ulfar Erlingsson

移动应用为我们带来娱乐和便利，方便我们与亲友交流，并提供诸如地图和电子钱包之类的各种工具。但这些应用也可能寻求超过执行任务所需的设备信息，例如个人数据和来自摄像头与 GPS 追踪器等组件的传感器数据。

为保护我们的用户和帮助开发者应对这一复杂的环境，Google 对 Google Play 中每款应用的隐私和安全信号进行了分析。然后，我们将此应用与具有类似功能的其他应用（即 功能对等应用）进行对比。通过创建对等组，我们可以校准我们对用户期望的预测，为可能被认为不安全或侵入性的行为设置充分的边界。这一过程有助于检测在并非明显必要的情况下收集或发送敏感数据的应用，也让用户更加容易发现既提供适当功能又尊重其隐私的应用。例如，大多数涂色书应用的运行并不需要知道用户的准确位置，通过分析其他涂色书应用即可清楚这一点。而地图和导航应用则需要知道用户的位置，而且经常需要访问 GPS 传感器。

创建应用对等组的方法之一是创建一组固定类别，然后将每个应用分配至一个或多个类别中，例如工具、生产力和游戏。然而，固定的类别过于宽泛和死板，无法体现和跟踪日新月异的移动应用集的许多特性。人工管理和维护这些类别，既单调乏味，又容易出错。

为解决这一问题，Google 开发出一种机器学习算法，将具有类似功能的移动应用汇聚在一起。我们的方法是通过矢量嵌入的深度学习，并使用文本描述等应用元数据以及安装量等用户指标来识别具有类似功能的对等应用组。然后，利用这些对等组，根据每个应用请求的权限及观测到的应用行为，识别与隐私及安全有关的异常、潜在有害信号。不同对等组与其安全信号之间的相关性可帮助各个 Google 团队决定哪些应用应加以推广，以及确定哪些应用值得我们的隐私安全专家进行更严格的审查。我们还根据审查结果帮助应用开发者加强其应用的隐私性和安全性。

将应用划分到功能类似的应用组中，在由类似应用组成的每个应用组中，通过既定的基准寻找异常的隐私和安全信号。
这些技巧源自之前的一些想法，例如使用对等组分析隐私相关信号，通过语言模型深度学习完善这些对等组，以及通过自动化数据分析推导结论。

Google 的多个团队密切合作，开发出此算法和相关流程。在此感谢以下团队骨干成员：Andrew Ahn、Vikas Arora、Hongji Bao、Jun Hong、Nwokedi Idika、Iulia Ion、Suman Jana、Daehwan Kim、Kenny Lim、Jiahui Liu、Sai Teja Peddinti、Sebastian Porst、Gowdy Rajappan、Aaron Rothman、Monir Sharif、Sooel Son、Michael Vrable 和 Qiang Yan。

如需详细了解 Google 在检测和防范 Android 潜在有害应用 (PHA) 方面所做的努力，请参阅 Google Android 安全团队对潜在有害应用的分类。

参考文献

S. Jana, Ú. Erlingsson, I. Ion (2015)。《苹果与橙：通过对等组分析检测违背最小特权原则者》(Apples and Oranges: Detecting Least-Privilege Violators with Peer Group Analysis)。arXiv:1510.07308 [cs.CR]。

T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, J. Dean (2013)。《词和短语的分布式表示及其构成》(Distributed Representations of Words and Phrases and their Compositionality)。神经信息处理系统的发展 26 (Advances in Neural Information Processing Systems 26) (NIPS 2013)。

Ú. Erlingsson (2016)。以数据为导向的软件安全：模型和方法 (Data-driven software security: Models and methods)。在葡萄牙里斯本举行的 IEEE 第 29 届计算机安全基础研讨会 (CSF'16) 的会议公报。