KDD: 线性方法仍有一席之地
某机构学者Christos Faloutsos表示,在知识发现领域,“我们想为特定应用选择合适的工具”。
国际计算机协会知识发现与数据挖掘会议(KDD)将于下周开幕,这距Christos Faloutsos(某机构学者、卡内基梅隆大学计算机科学教授)首次参加该会议已有23年。Faloutsos在2010年荣获该会议创新奖。今年,他是被会议接收的三篇某机构论文的共同作者。
自1997年Faloutsos首次参加KDD以来,情况发生了巨大变化。“当时的热点是关联规则:买面包的人也买牛奶——或者纸尿裤和啤酒,这是一个悖论,”Faloutsos说。“后来,热点转向了支持向量机。接着是数据科学、大数据,如何将机器学习与Hadoop结合——在2005年、2010年,Hadoop是首选工具。当然,过去几年是深度学习和神经网络。技术变化很大,但目标始终如一:如何在海量数据中发现模式。”
在计算机科学的某些子领域,深度学习革命意味着领域专业知识不如以往重要:系统设计者可以相信神经网络本身能学会输入数据的哪些特征与计算任务相关。但Faloutsos表示,在知识发现领域,情况并非总是如此。
“如果有大量样本,这或许是可能的,”Faloutsos说。“如果你有十亿张狗的照片和十亿张猫的照片,那么最终深度学习网络能学会区分。但如果样本很少,我们仍需非常谨慎地选择特征。客户‘史密斯’会买鞋吗?或者病人‘约翰逊’会患上某种疾病吗?对于这类情况,我们需要考虑应该提供哪些特征:是仅提供史密斯前几次消费的金额?应该使用金额的对数吗?是否需要对金额进行归一化处理,使其均值为零或单位标准差?类似地,对于病人约翰逊:哪些是适合该病人的特征?使用身高、体重还是血压?特征提取是困难的部分。”
事实上,在他自己的工作中,Faloutsos很少使用神经网络。他的大部分研究都集中在传统的——通常是线性的——知识发现方法上。
“深度网络总是能表现得更好,因为它将线性方法作为一个特例包含在内,”Faloutsos说。也就是说,任何线性方法都可以编码到神经网络的参数中;因此,如果神经网络学会了利用非线性,那很可能是因为非线性提高了性能。
可解释性与速度
尽管如此,线性方法有两个优势,在某些情况下可以弥补可能存在的精度损失:可解释性和速度。这两点对于某机构的许多知识发现应用也至关重要。
“对于某些应用,可解释性是强制性的,”Faloutsos说。“你不能说,‘我要做开胸手术,因为神经网络是这么说的。’你必须有一个非常充分的理由。”
Faloutsos的一个研究项目是从线性知识发现系统入手,然后逐步加入非线性,这应能使非线性更易于解释。“如果你的十个深度学习单元是线性的,两个是非线性的,你就能弄清楚这些非线性单元的作用,”Faloutsos解释道。“例如,如果你在进行软件产品销售预测,新版本发布时可能会出现一个不连续点。”
考虑到某机构商店的每日交易量和某机构产品目录中的商品数量,高效的计算也至关重要。例如,Faloutsos在某机构的一个项目是欺诈检测,这需要快速分析海量交易以发现异常。
“如果你有一个二分图,即人们购买产品,并且有20个人购买了相同的40种产品,那就很可疑,”Faloutsos说。“没错,每个在某机构上购物的人或多或少都会买相同的产品。但你绝不会恰好和另外20个人购买完全相同的40件商品。我们有很多算法可以识别这种情况,并且非常成功。”
“线性方法非常容易训练,”Faloutsos解释道。“它们是高度优化的:对于SVD(奇异值分解,线性知识发现方法中的一项核心技术),有无数篇论文专门研究如何进行快速SVD、稠密SVD、稀疏矩阵SVD,应有尽有。由于存在针对线性方法的超级算法,速度优势巨大。”
Faloutsos说,他希望他的学生们能理解的是,“我们想为给定的应用选择合适的工具。”
“当一种技术在三到四个不同领域都有效时,它就是你的工具箱中一个很棒的工具,”他说。“这是我判断一项非常好的技术并会推荐给我学生的经验法则。如果我发现一种方法能处理文本、图像、语音,那它就是好方法。神经网络适用于所有这些场景;这就是它们取得巨大成功的原因。但同样的论点也适用于SVD、幂律和分形。”FINISHED