Computing with spatial trajectories》(空间轨迹计算)前言翻译

415 阅读17分钟
原文链接: zhuanlan.zhihu.com

《Computing with spatial trajectories》一书是郑宇博士在微软亚洲研究院工作期间与昆士兰大学的周晓方教授联名写作的一本关于空间轨迹的经典之作。 电子版地址:http://www.doc88.com/p-4781605475300.html 该书目前没有中文版,网购售价一般在1200元左右,这里给一个京东的连接,毕竟现在郑宇博士是京东副总裁、京东数字科技首席数据科学家。 废话不说,下面是本书前言部分的翻译。

前言

空间轨迹是一个物体在地理空间中移动生成的轨迹,这些轨迹通常是一系列按照时间顺便排列的点,例如 P_1 \rightarrow P_2 \rightarrow \dots \rightarrow P_n ,其中每一个点都由空间坐标和时间戳构成例如 p = (x,y,t)

由于定位和无线通信技术的进步,使得移动计算系统和基于位置的服务(LBS)快速的流行,从而导致表示各种移动对象的空间轨迹的产生,例如在室内或者野外环境中的人、车辆、动物和各种自然现象。下面是一些例子。

1)人员流动:人们一直在采用空间轨迹的方式记录他们在真实世界中的运动,不管是被动的还是主动的。 - 主动记录:如旅客们主动记录他们带有GPS轨迹的旅游路线,并且发表在个人空间中,与朋友分享经验。乘骑自行车或者慢跑的人可以记录他们的运动足迹以进行分析。在flickr中,每张带有位置标签来表示拍摄地点,以及带有拍摄时间来表示时间戳的相片,能够制作一系列带有地理标记相片的空间轨迹。同样,在相应区域“Check-ins(签到)”的记录,也可以被视作一个按时间顺序进行排序的轨迹。

  • 被动记录:用户在携带移动电话时,通过与相应的手机信号塔进行信息交互,从而无意中留下了关于手机信号塔ID表示的位置信息以及在服务区之间切换的时间记录,也留下了丰富的空间轨迹。同时,信用卡的交易记录也能表明持卡人的空间运动轨迹,因为每一笔交易都包含了一个时间戳和用来表示交易位置的商家ID。

2)车辆的运动:近年来,大量配置有GPS的车辆已经出现在我们的生活中,例如,各大城市中都有大量配置了GPS传感器的出租车,使他们能够以一定的频率向数据中心发送含有时间标记的位置信息。这样的报告生成了大量的空间轨迹,可以用来进行交通资源优化、安全管理和流量分析。

3)动物和自然现象的运动:生物学家们需要了解动物如候鸟迁徙运动轨迹的研究项目。同样气候学家们也都在忙着收集一些自然现象的轨迹,如飓风、龙卷风和洋流。这些轨迹为科学家们提供了关于研究对象的丰富的信息。

总而言之,空间轨迹已经为我们提供了前所未有的丰富信息用以来研究和了解移动对象,这就要求系统性的研究和发展新的计算技术,用于处理、检索、挖掘和探索更多的应用。因此空间轨迹的计算已经成为一个越来越重要的研究主题,吸引了广泛的关注。在这个研究主题中,设计许多的领域,包括了计算机科学、生物学、社会学、地理学和气候学等等。

虽然有很多书都对空间数据库、移动计算、数据挖掘做了论述,但是本身是第一本致力于空间轨迹数据计算的专著,具有覆盖面广和权威的视角。主要针对高年级本科生,研究生,研究人员和专业人士,本身涵盖了空间轨迹计算的基本情况和领域中的关键问题。每一章都是一个关于空间轨迹计算的重要方面的教程,而且包含了许多相关研究论文和有价值的参考。本书提供了对空间轨迹索引,搜索和数据挖掘的全面概述,也提供了对此进行研究和程序开发的一般概念,以及新的方法和应用,以便用以帮助研究人员探索这个令人兴奋的领域。它还大致介绍了到最近的一些发展以吸引研究人员和其他有兴趣的读者加入到这个充满希望的研究领域。

我们选择了17个活跃的空间轨迹计算的研究学者,从他们的专业为本书的章节贡献内容。 本书的章节按照:“轨迹预处理(数据库之前) -> 轨迹索引与检索(数据库中) -> 高级主题(数据库之外)”三部分进行组织,如图1。


  • 本书的前两章介绍了空间轨迹数据处理的基础:轨迹预处理(第一章)和轨迹索引及检索(第二章)。
  • 第二部分由六个高级的主题组成:空间轨迹的不确定性(第三章),空间轨迹的隐私(第四章),轨迹模式的挖掘(第五章),基于空间轨迹的运动识别(第六章),驾驶分析(第七章)以及基于位置的社交网络应用(第八和第九章)。

具体来说,本书会逐步引入各种概念和技术来解决新入门的学习者研究这个领域时面临的一些问题,从最开始的数据预处理到空间运动轨迹,然后进行不确定性挖掘,隐私保护和轨迹模式识别,最后利用空间运动轨迹进行包括行为识别、驾驶和基于位置的社交网络等的一系列高级应用。下面是对每一章的内容进行简要的介绍:

第一章:空间轨迹携带了可在各种应用中使用的丰富信息,我们在使用之前需要处理很多问题。通常,物体的连续运动近似采用离散的位置采样的形式记录。高采样率生成精确的轨迹数据,但是会导致数据存储、通讯和处理的巨大开销。因此,要设计一个能够对轨迹数据进行压缩同时保证轨迹有效性的技术。同时,轨迹数据通常会因为异常值或者定位系统的信号不好而产生噪点。例如,在车辆行驶在“城市峡谷”中的时候,卫星信号到GPS设备通常接受效果非常差,由此会产生一系列显著偏离了真实位置的坐标点。有时候,偏移量甚至超过了一英里。所以设计一种减少轨迹噪声的技术对此类轨迹应用的系统是非常有用的。这样一来,就需要用空间轨迹技术的过滤方法对噪声数据进行预处理。 为了解决这两个问题,在第一章中提出了一个可以在批处理模式下(离线)运行的数据压缩技术,和一个可以在线处理的数据压缩技术。本章的第二部分介绍了用于从空间轨迹中过滤和测量噪声的方法,包括均值和中值滤波,卡尔曼滤波和粒子滤波。总之,本章为初学者提供了一个空间轨迹预处理的基础框架。

第二章:各种基于位置服务的流行导致了无数的轨迹数据,对这些轨迹数据进行计算对应用系统来说是一个巨大的负担。如果轨迹数据没有很好的组织,从轨迹数据中得到信息将是一件分厂费时的工作。例如,检索一个经过十字路口的轨迹,本来是是一个很简单的任务,如果这些系统必须直接扫描大量的轨迹数据集的方式来检索,那么这种方式在线系统就完全不可行了。在很多场合我们还可能需要寻找满足某些条件的特定轨迹,这就需要通过时间和空间的限制进行检索。例如一个游客要检索在特定的时间范围内通过一个特定的区域的空间轨迹,用来帮助他制定旅行计划。实际应用中的需求需要我们开发切实有效的轨迹索引和检索技术。所以,我们在第二章介绍了经常在数据库中对轨迹数据进行的查询和由检索技术支持的查询过程的方法。

第三章:使用相关技术完成对空间轨迹数据的预处理和结构组织之后,我们就可以在各种应用中使用他们了。然而,定位器天生是不精确的,从而导致我们获取的关于移动物体的位置有一定的不确定性。例如,GPS传感器的读数通常有10米甚至是更大的定位误差。有了这样的读数,我们可能不容易识别感兴趣对象的准确地点(如餐厅或者商城),尤其是在人员密集的城市地区。同时物体是连续移动的,但是他们的位置仅在离散的时间内更新,这样在两个更新的具体位置之间,就存在不确定性。有两个原因会导致比较长的更新间隔,一是节约能源消耗,二是节约通讯带宽。当两个更新之间时间间隔超过了几分钟甚至是级小时,那么空间轨迹的不确定性就严重的降低其效用性,并且在搜索移动物体的时候带来新的挑战。

为了解决以上的不确定性,在第三章介绍了有关不确定性空间轨迹的相关概念以及各种问题和解决方法。对有关建模的问题和在“移动对象数据库(MOD)”中如何表示不确定性的问题进行了介绍。并且讨论了一些高效的处理算法来处理不同的时空查询问题。请注意,第二章的查询处理并没有考虑到空间运动轨迹的不确定性,而这点是本章的重点。

第四章:虽然LBS服务为移动用户提供了很多有价值的应用,但是对于个人私人地点可能暴露给不受信任的LBS服务提供商给人们带来了对隐私的担忧。在LBS服务提供商所提供的服务与用户位置隐私保护之间如何进行平衡?用户位置的定位得越精确,可提供的服务质量就越好,但是用户的隐私被保护得就越少。 一般而言,有两种类型的LBS,即快照LBS和连续LBS服务。对于快照类型的LBS服务,需要获取信息的时候,移动用户才将自己当前的位置报告给服务提供者。事实上,用户认为使用这种服务的时候没有必要通过LBS系统提交精确的位置。例如,寻找附近的酒店,用户只需要报告一个包含当前位置信息的粗略的地理区域即可。有很多文章都已经讨论了关于保护用户快照位置,所以第四章将不对此进行讨论。 另一方面,用户需要周期性或者按需的方式,将自己的位置信息提交给服务提供商,以得到连续的LBS服务(例如,获得实时的交通信息或者在驾驶中选择最近的加油站)。保护用户在连续LBS服务上的位置隐私服务比快照LBS更有挑战性,因为心怀不轨者可以使用用户运动轨迹样本的时间和空间上的相关性,能够较为精确的却行推断出用户的位置信息。总之,如果原始的空间运动轨迹向公众或者是第三方开放,可能会造成严重的隐私问题。所以目前,对连续的LBS以及相应的轨迹数据发布的隐私保护已经收到业界的重点关注。在这种情况下,我们在第四章介绍了最新的连续LBS和空间轨迹的隐私保护技术。

第五章:空间轨迹的庞大体量能够使我们分析运动对象的行为模式,他可以由含有某种模式的单独轨迹或者包含有多组相似模式的轨迹来表示。也可以是有相似的性质但是轨迹不同的区段(如,定义了固定的时间和空间范围的数据集),或是一组满足相同的条件的所有轨迹。这些模式能够为实际应用带来巨大价值,包括交通、生物研究、体育、社会服务等。例如,找到不同的轨迹簇,里面的各种轨迹具有相似的模式,可以帮助检测用户行驶路线或者是研究鸟类的迁徙路线。此外,对一起运动的、提供建议的或者允许出租车共享的一群人的识别,可以促进对社会关系的探索。第五章中介绍并评价了一些现有的文献中关于轨迹模型信息根据不同模式进行分类的索引结构和模式挖掘的研究。

第六章:在对空间轨迹进行预处理、管理和模式挖掘后,人们可能会问,基于这些轨迹数据我们可以做些什么的应用。行为识别就是可以利用直接轨迹信息的一种核心的应用。直观上,人们产生的空间轨迹意味着用户的行为和活动,这样就通过一些低级别的传感器的读数可以对高层次的用户的目标得到新的洞察。首先,一个人的活动可以被用来触发满足用户需求的服务。例如,如果已知用户正在驾驶车辆,她的移动电话可以自动显示用户周围道路的交通状况,并且暂时禁用手机的娱乐功能(为了她的安全),因为娱乐功能会分散驾驶员的注意力。如果我们知道用户是在开会或者在看电影时,那么用户的手机就可以切换为静音模式。第二,多用户的活动使我们能够通挖掘集体行为,有助于我们对社交网络和交通信息的分析。如果有多个用户的互动信息,那么我们从两两者之间的相似性,以对二者间估算就会更加精确,所以可以提供更好的社会发现服务以及朋友和位置的相关建议。

由于比快照位置服务提供的数据信息更加丰富,空间运动轨迹也需要更先进的基于行为识别的技术。为了帮助新入门的学习者,第六章描述了基于轨迹的行为识别的搜索并对他们进行了分类。

第七章:车辆的轨迹表现了与交通运输的强关联,因为驾驶是我们生活中最核心的环节之一。可以从这些轨迹中得到丰富的信息,如从驾驶员的行为信息中得出道路网络、交通网络等信息,从而从不同方面给出有利于驾驶体验的建议。例如,根据GPS轨迹创建的路线图是一个比传统方式更便宜的得到最新的路线图的方法。另一方面,基于一个或者多个有经验的司机的轨迹会产生更为有效的建议。

第七章介绍了驾驶行为如何受益于空间运动轨迹的分析,以下是一个应用的基本范式:“从GPS轨迹创建地图道路 -> 将驾驶员的单一运动轨迹映射到道路网络上 -> 挖掘有效的行车路线 -> 从驾驶员的个性化驾驶路线轨迹中学习到基于偏好的特定驾驶习惯”。

第八章和第九章:位置定位和移动通信技术的进步,使个体用户也产生了各种空间轨迹,这意味着丰富的用户的行为、兴趣和喜好等各种信息。最近,人们出于不同原因,开始通过在线社交网络服务来分享他们的轨迹数据,这样就培养了一批以轨迹为中心的LBSNS应用(基于位置的社交网络)。例如,用户可以记录他的行驶路线,并且在一个在线社区通过GPS轨迹分享他的旅游经验,或者通过慢跑日志和自行车运动来分析或者经历分享。此外,签到类的应用在Foursquare或者Flickr应用中,将用户的旅行相片“看作空间运行轨迹”。以这些轨迹为中心的LBSNS使我们能够了解用户行为和位置,并且探讨他们之间的关系。

一方面,我们可以通过他与其他不同用户之间的轨迹来发现他们的相似性去了解一个人,从而提供个性化的服务,并且还可以进行朋友推荐以及社区发现。另一方面,我们能够识别位置,并且根据用户的信息,以及两个不同位置之间的关系,为用户提供比如旅游一类的更好的建议。

在第八章中,定义了基于位置的社交网络,并从用户和位置的角度讨论了LBSNS的研究哲学。在以轨迹为重的LBSN中,本章探讨和关心的是以下理解用户位置的两个基本问题。一个是对个体位置的个别历史轨迹数据的建模。另一种是根据其历史位置估计两个不同的用户之间的相似性。相似代表了基于位置的社交网络的两个用户之间的距离,通过它可以提供朋友推荐或者社区发现。对一些为这些应用程序的进行评测的可用的方法进行了讨论,第八章还列出了一些可公开的数据集。

虽然第八章从用户角度学习了基于位置的社交网络背后的研究哲学,在第九章将进一步进行从位置的角度探索和研究LBSNS。为了方便旅行,一系列的研究课题都从用户的GPS轨迹中挖掘集体行为。首先是一般的旅行建议,给用户提供某一地区感兴趣的地点,旅行序列,旅行专家,以及一个通过用户开始的时间和位置进行调节的有效的行程。第二,个性化的旅游建议能够发现一些匹配用户个人兴趣的内容,这些个性化的建议可以从收集用户的个人历史位置数据中得到。

最后,我们希望本书能够为您提供一个有用的概述使用指南,并且为有志于在计算和空间轨迹领域发展的年轻人提供帮助。

微软亚洲研究院 Yu Zheng 澳大利亚昆士兰大学 Xiaofang Zhou 2011年7月