适合人群:
对网络隐私保护/开源信息OSINT/社会工程Social Engineering/渗透测试Pen-test感兴趣的人群
建议阅读时间:
20分钟
大家好,我是药姐,是个常驻北美的开源信息调查/网络隐私保护员。今天想给大家讲讲我的职业和开源信息挖掘这一门学科在北美的情况,和我个人对这个行业的一些感悟。本文会着重讲开源信息信息挖掘的一些基本手法。后续信息清理和隐私保护的部分,我在将来的文章中会慢慢更新。
开源信息调查员算是一个很有意思和很少见的工作。我一开始原本是一个对研究开源信息调查(Open Source Intelligence, 简称OSINT)感兴趣的程序员,慢慢自己在下班时间自学cyber security,开始帮人免费义务调查,后来得到认可慢慢开始接客户,才算正式做上现在这份工作。开源信息调查是一门很有用的综合性学科,通俗叫“人肉搜索”。我工作的主要内容是在客户授权的前提下,在客户授权的范围内,用开源信息挖掘的手法(人肉搜索),发掘客户在明网暗网能挖掘的所有信息,查找客户有没有泄露在外的敏感个人隐私信息,然后帮对方保护和清理。一般来说,我会先挖掘和收集跟客户有关的开源信息,然后汇总成一份报告,发给委托人。委托人看过之后,对于泄露在网络上的敏感个人信息,我会系统的帮委托人做网络信息清理,并且去一些暗网(dark web)泄密的数据库里面做个人信息搜索和清理工作,最后针对客人的网络隐私保护情况,给予一些具体的补救和建议。
要保护隐私,首先要了解黑客怎么挖隐私。因此,我最长接触,也最常做的,就是开源信息挖掘。具体来说,就是用网络信息和纸质媒体等等种种不限形式并且已经公开过的信息,利用各种信息平台和非常专业的信息搜集工具,做有针对性地调查。调查对象/主题可以是居住在北美的人,也可以是公司/社会团体。常用的平台和工具包括微信、脸书等社交媒体,北美居民常用的政府公开居住记录、商业记录、被公开的消费记录,等等明网暗网能找到的各种信息。
因为我常驻北美,对美国的华人生活的方方面面比较了解,所以我的客户多数是在北美工作和生活的华人。一般来说会委托我的,是相对更在意个人隐私的高净值客户。
出于对隐私保护的需要,我必须了解我的客户所面临的隐私保护问题。一般高净值客户更容易成为网络黑客,绑架案和钓鱼诈骗案件的受害者,所以他们的隐私保护意识也会更高。为了更好的保护和清理我客户的隐私,我会在清理隐私之前,会先全面的对委托人进行调查(在委托人授权的前提下)。我调查的方面包括一个人的教育和工作历史,年龄和出生日期,婚姻记录,犯罪记录,联系方式,兴趣爱好,圈子,收入,经济状况,名下资产,家庭成员情况。一般来说,被调查人和被调查家庭成员如果在美工作生活五年以上或美国公民/绿卡持有者,公开的信息会更多一些,不过具体也看个人情况。
开源信息调查,对绝大多数华人来说,还是个新鲜事物。不过其实这种调查,包括婚前背景调查,在欧美国家其实已经很成熟了。我曾经和很多美国人还有这个行业的其他从业者聊过:对欧美高净值人群来说,在结婚求职的时候,被别人做背景调查,甚至被人做婚前调查,其实很普遍。
这一行其实算是从私家调查(Private Investigation)这个行业演化而来的。随着近十几年各种个人信息和数据化的网络化和电子化,很多传统需要调查纸介质档案的私家侦探的工作,变成电子调查和专业的数据库网站检索工作了。而且随着社交媒体的普及,以往需要消耗大量人力物力靠窃听跟踪或者去市政记录档案厅抽调纸介质档案才能查到的信息,现在足不出户用一台电脑就能搞定。
因为开源信息挖掘是个非常新而且门槛相对比较高的行业,所以北美这边现状黑白兼半,非常缺乏规范(私家侦探行业有自己的行业规范,开源信息调查根本没有行业规范)。一般比较正规的从业者会在得到用户本人委托和同意的情况下,在被允许的范围内调查对方。不正规的调查者基本是工作经验多年的私家侦探+黑客,调查手段会比普通黑客更复杂,更专业(有时调查手段更极端更过分)。美国的私家侦探是一个非常神奇的存在,他们取证的方式和调查的方式,其实很多时候严格来说并不符合美国的法律规范,但是因为他们自身也非常了解美国的隐私法律,所以即便很多时候用打擦边球的方式获得的信息,钻一些隐私法的空子,也能作为呈堂证供。美国大选希拉里邮件流出,特朗普通俄门,等等例子,其实都有私家侦探+黑客参与的影子。
开源信息行业的从业者里面很多人都身兼数职,北美这边全职做这个行业的基本上传统私家侦探最多。黑客、离婚律师、猎头、信用调查机构、讨债机构、房地产从业者等等这些人的工作内容本身很大程度就是信息搜集,他们工作很重要的一部分也是用一些手法和信息平台做个人全面或者片面的背景调查。我做这个行业,使用的绝大多数信息搜集工具和清理信息的手法,多数是自己看书上网找教程学和总结的。我使用的方法和平台资源,绝大多数来自上述提到的这些行业。
另外,在美国,一个网络安全渗透测试工程师/白帽黑客(penetration tester/ethical hacker)做的工作,至少在渗透测试前期信息情报收集阶段,也和我们这行差不多.不过他们更专注于搜集企业信息,而我们更关注于个人信息。
我之所以做这一行,是因为我非常关注个人隐私保护, 而且我非常喜欢开源信息挖掘和情报搜集这一门科学。因为每个人都有完全不同的生活,收集到的信息和搜集信息的方式也会非常不一样。调查的过程往往是个创造性解决问题、用已知信息推导未知信息的过程,让我觉得最有挑战性也最有趣。随着这一门学科理解的加深,手里会用的平台和工具的增多,常常能够在信息残损不全的情况下,临时想出来非常有创造性的挖掘/反证信息真实性的新方法。我非常喜欢这个用手头有限信息,去创造性解题推导出信信息的过程。我想要用自己会的知识来帮助别人,并且在这个过程中不断提高自己的开源信息挖掘技巧。我曾尝试做只自学自娱自乐,不接活儿的方式。但是一个白帽黑客靠自己网上看书自学能学到的东西,至少在信息挖掘和保护的领域,其实是非常有限的,因为一个人的交际圈子里面,可挖和可保护的东西其实很少;只有在真正为客户的服务过程中,才能见到之前接触不到的世界,并且从这个过程中成长,提高信息挖掘和隐私保护的技巧。
那么问题来了:我接到委托之后,到底怎么用开源信息挖掘的手法,查找委托人的个人信息呢?
基本步骤:
一、从委托人处得到目标调查人的基本信息
二、提炼关键信息点(种子),找到区分要调查的目标A和其他同名同姓的人不同特点的关键信息
三、利用种子信息点,去多种平台收集犯罪,结婚,经济情况等等各个方面的信息,相互关联,相互印证,步步推开,每个方面详细推敲梳理
四、通过多种途径手段,信息之间互相印证,去伪存真,验证关键信息真实性(验证这一步非常重要)
五、写报告,私密方式发给委托人
举个具体的例子(下面的例子仅演示获取信息的过程,例子的具体信息和内容全是我更改过和虚构杜撰的,非真实人物,非真实信息;张鹏这个名字也是我随便想出来的一个非常大众化的名字):
我的客户张鹏委托我帮他做隐私保护和清理。客户现在在和前妻离婚的过程中,他的前妻试图找到他婚内出轨的证据,来让法院尽量判决他多付离婚抚养费。客户要求,让我做非常彻底的网络信息清理。如果我查到任何有关于他之前婚姻历史的信息,请帮他清空。另外,如果我找到任何有关于他婚内出轨的证据,要我做最彻底的清理,以免被他前妻用作证据。(本文会着重在婚姻信息的搜集方面举例。其他方面的信息,如犯罪记录,商业记录,财产调查等等原理是相似的)
在开始前期调查之前,我首先从客户那里拿到调查授权,并了解到一些基本信息:张鹏来美国上学+工作了20年,48岁,现在美国东北部某主要城市做CFO。
我查张鹏,一般会从一个人的简历和领英页面(LinkedIn)和简历入手开始调查。在北美生活的绝大多数华人,多数都有在本地上过学/找工作/工作的经历。因为简历和领英上面可以获得非常多的关键信息(手机号,邮箱,曾用住址,上过的学校,工作实习经历,个人网站博客,论文曾获奖项等等),这些关键信息可以在后面的调查中作为种子信息,用来挖掘更多信息,相互印证和缩小包围圈。
下一步,从各种搜索引擎上面搜索从第一步的种子信息。比如,用专门搜索手机号码的反向搜索引擎,挖掘出更多和这个手机号相关联的信息。把第一步找到的所有种子信息全搜索一遍,把引申出的新信息记录好,作为新一轮种子信息,进一步搜索。
再下一步,按照(婚姻历史,犯罪历史,经济状况等等)不同类别的信息,分门别类地梳理查找感兴趣的方面。稍后我会拿我查找张鹏的婚姻历史的过程来具体举例。
客户既然要求我清理他的公开婚姻历史,那么都有那些公开信息,是和张鹏的婚姻历史相关的呢?我又如何去找到这些信息呢?
这里先给大家补充一点背景信息:
在美国,一个人的结婚记录是可以合法获取的公开信息(不同州政策不同)。当一对新的夫妇想要结婚,他们会到他们所在的county所在的市政厅去找法官签署并申请结婚许可(marriage license)。county一种比市小一级的行政地区域划分,类似北京市有海淀区大兴区,county是一个城市下面的其中一个行政区/县,读者可以联想一下类似于北京市海淀区民政局的一个机构。申请之后,再等十到十五个工作日,去领取结婚证(certification of marriage)。等 领到结婚证之后,去州务卿办公室(secretary of state)做公证。因此,一个人的结婚证和结婚离婚历史,在美国绝大多数州(每个州政策不一样),是有据可查的公开信息。不过因为每个州政策不一样,公开信息的情况和有无网络数据库的情况不一致,查询起来很繁琐。而且美国这边每个城市下面的county行政区划分数量非常多,如果要查询一个人的婚姻信息,必须先知道他具体在哪个county申报的,如果在错误的county查询(比如对方在海淀区民政局登记结婚的,你去大兴区民政局的数据库里搜索,是搜索不到结果的),哪怕对方已经结了婚,也是找不到结婚信息的。
除了行政机构公开的结婚许可,一个人如果曾经结了婚,还有很多其他的蛛丝马迹可循。比如说,在北美生活的中国人在美国的大城市结婚,一般比较喜欢在郊区买个房子,如果一个人的曾用邮寄地址中(曾用邮政地址历史很好找到)名下有郊区的房子,那么这个人结过婚的可能性是比较高的。找到对方名下房子的地址以后,可以顺藤摸瓜搜索出曾经用过居住过同一个房子使用过同一个邮政地址的人。如果两个人曾经在同一个房子共同居住并使用同一个邮政地址过很长一段时间,那么他们要么是室友,要么就是在同居。下一步可以进一步核实两个人的关系。核实关系有很多途径,比如说查询另一个人的结婚地址,教育历史,朋友圈交集,社交网络发布的图片和社交状态更新等等。
我从张鹏发布在领英(LinkedIn)上的简历和社交网络上公布的教育经历和工作历史中了解到,他在换工作来到美国东北部之前,曾在旧金山一所大学上过两年研究生和在芝加哥郊区某科技公司工作过四年时间。
下一步,我会用thatsthem.com或者类似的专门搜索人的搜索引擎来搜索,一般会出一些结果,根据简历上列出来的年龄手机号曾用地址和城市可以缩小包围圈。不过人搜索引擎结果一般不全面而且很多时候结果不准确,只能作为辅助。
下图是我在thatsthem.com的搜索结果,可以看到地址,姓名,手机号,房子的GPS地址,预计年收入,等等信息。
在我搜索出来的张鹏的曾用过的四个邮寄地址中,前三个是离他学校和公司很近的市区的合租公寓,第四个地址是一幢郊区的房子。我把这四个地址的county(行政县区划分)提炼出来,分别到这几个行政县区所在的公开信息网站上面查找“张鹏”这个名字,从年龄,城市和亲属来缩小目标,找到他的是否结过婚。结婚历史可以用searchquarry.com或者类似的网站,类似这类的网站一般的信息来源是美国各个州各个行政区县的州务卿办公室的公开数据库。
下面是searchquarry.com的婚姻历史搜索结果,我搜索了张鹏的名字,出来一百多个结果,每个结果可以用其他个人信息来缩小目标:
除去上面提到的结婚记录这一种方式,其实还有很多其他的信息可以泄露张鹏的婚姻/同居信息。类似信息和方法其实有很多。下面我只举2种常用的吧。
第一个信息:曾用过的邮寄地址和居住人信息:上面我们找到了张鹏曾居住过的几个地址,用谷歌地图搜索。查到了张鹏名下的几幢房产。我先查第一所房子,我从redfin.com查出来房子在2014年和2016年的时候成交过。那我们查询一下房子的历史成交记录和贷款记录吧:
下面是我查询realestate.public-record.com的结果,用同样的居住地址,上面不光有详细的房屋贷款人信息,首付多少,还有写着两个贷款人的名字(红圈为两个人名)里面贷款第一人就是张鹏,贷款第二人可以看到他妻子的名字。我们通过这一条贷款信息,可以了解到张鹏结婚,买房和贷款还有他妻子姓名的细节。
我在做调查的时候还有一个额外的收获,那就是当我不但找到了他的前妻,还找到了他当时婚外出轨的女朋友的信息。这里我用到了第二个能揭示他同居情况的信息:
第二个信息:社交网络图片的隐含信息。 我当时用张鹏名下的第二幢房子的地址信息反向搜索,找到了这个地址曾住过的人员。其中有一个中国女生的名字用他名下的这桩房子作为邮寄地址三年多。我单独查询了一下这个女生的社交媒体尤其是她和张鹏可能有交集的时间范围。我在这个女人的社交媒体上只找到了正常的旅游吃饭的照片,偶尔有女人的自拍,但并没有找到任何包含张鹏的照片。但是我仔细核查两人的时间地点活动范围,发现有很大的时间,地点交集。
我在张鹏的个人网站上看到了几篇他写的旅游游记,从游记中设法找到了他几次出去旅行本人拍摄的几张原图。虽然图像本身只有风景和饭店食物等等,少有人物,但我从原图隐含的图片信息中(Meta data),找到了图片拍摄的时间地点,和女生社交网络上公布的几次旅游出行地点和时间吻合。
如果一个人只看张鹏本人自己的社交媒体上这段时间的社交媒体来找到他婚内出轨的蛛丝马迹,只能看到一些正常出去玩和吃饭,日常生活的照片和地点定位。是完全看不到第二个女人的存在的。单独从这个女人的社交媒体来看,也很正常,是完全看不到张鹏的存在的。只有把两个人的活动轨迹放在一起比较,才看得出来高度一致。
下图为我从张鹏的游记里面找的一张石锅拌饭的照片原图,图片的隐藏信息里面有拍摄这张图片的时间地点,手机型号等等信息。
近几年绝大多数社交媒体,比如微信脸书等主流社交媒体,出于安全考虑都会把用户上传的照片的隐含图片信息去掉。但是社交媒体之外的很多论坛和网站,仍然允许用户上传和下载原图,也不会去掉这些照片隐含信息的,可以被用来辅助调查。
上文中提所有的个人信息和细节都不属于任何真人,仅为我为演示调查过程虚构杜撰的。图片中的信息也非真实有效信息,为我人为编造篡改过的。
跟大家分享几点我做这一行的想法:
想法一:
慎重对待美国这边免费和付费个人背调网站上面获得的情报,因为很多都不准确。
我上面列举的所有网站,和近几年美国有很多免费和付费的个人背景调查搜索引擎,请大家一定谨慎对待从上面获得的情报。上面的情报不一定准确,甚至常常不准确。尤其是谷歌引擎一搜出来一大堆的广告付费的个人背景调查网站,对于这类网站,搜索一个人名出来一些结果,如果是免费的可以看一下,跟你能够确定的信息做比对验证真实性,但是不建议大家花钱买结果,比如有名的peoplefinder.com这类 网站,很多时候花了前也不会给你更多结果。他们网站设定就是跳出一个大的窗口有一点点信息,引诱你掏钱,你可以点击get details,然后他们故意设计十五分钟才出一点点结果给你看,增加你的时间沉没成本和期待值, 等你实在等不了了,掏钱买,买到的信息比之前弹窗给你看的那几条信息没有任何区别,根本没有任何真正有效的信息,基本9成以上都是白掏钱,不要问我怎么知道的:)类似的网站常常更换,往往很快一个免费网站马上变成收费的了。
有些个人背景调查网站我觉得拿来背调美国人还是比较有用和准确的,但是搜索在北美生活的华人的话准确率比较低。美国人开发的个人搜索引擎有个很大的弊端,就是他们分不清中国人同一个发音谁是谁。假如说我现在要找一个人,叫王一凡,英文拼音都是Yifan Wang. 但是同一个英文拼音可以对应王义樊,望一帆等等不同的中文字和发音。虽说有其他的年龄,城市,住址等等信息可以帮助缩小包围圈,但是一个英文的个人背调网站,只是单纯的把找的到的两百多个结果摆在你面前,给你出一个报告,这份报告包含一份他们觉得和可能性最高的Yifan Wang的个人资料,这一份报告里面的这一个人,甚至不一定是你要找的那一个人,但是会对没有专业背调知识的人会有非常大的误导性。类似这样,一个美国人开发的自动算法五分钟出结果的关于一个中国人的报告,往往信息很不准确。
不过也有相对质量比较好一些的平台,比如说Thomson Reuters CLEAR他们的背景调查平台,就还不错,是销售给美国法律执行部门的,个人公司也可以注册。不过说到底,一个最有效信息挖掘,需要一个了解在北美中国人生活的开源信息社会工程师,去层层搜索,去伪存真。如果要调查一个人,不管哪一个国家的人,一定要了解这个国家生活、社会行政系统、本国文化和语言的人,来做调查。
想法二:
我做信息搜索挖掘这一行,学到的很重要的一件事就是:有时候宁愿做决策的时候没有可用信息,也没有做决策的时候用错误和不准确的信息所带来的危害大。请不要在没有多层例证的情况下,想当然的以为你挖到的数据、证据是真实的。
开源信息可以用来帮助调查,扭曲和篡改过的开源信息也可以把调查引入歧途,让人做出非常错误的决定。我曾经见到过美国的犯罪分子用安卓手机模拟器,篡改自己的GPS和时区,发几个月甚至更长时间的社交媒体状态,来伪造自己不在现场的证明。我本人挖掘信息,主要是为了帮助客户清理个人隐私,不是做决策。与我不同,我所知道的很多其他信息挖掘者,比如婚前背景调查这类从业者,他们挖掘信息是要用来给客户参考作决策的。我上文提到的所有获取开源信息的途径,和从这些途径获取到的信息的真实性和准确性,是需要挖掘者抱着审视的心,谨慎衡量和去考察的。举个例子,大家看到的上面例子里图片上的所有GPS信息,都是我篡改过的。任何人都可以去编辑和更改图片隐含信息,所以你看到的图片信息,可能是真的,但也不一定是真的。大家在调查过程中要注意多手段,多途径的核实,去伪存真。
今天先写到这里吧。本文提到的例子虽然是一个北美的例子,但是开源信息挖掘的基本原理是相通的,只是具体使用的工具和土壤(context)不一样。希望本文能对国内的同行有借鉴意义。
开源数据挖掘是一个全新的交叉学科,不同国家对于这种背景调查手段很多时候还没有定义,也缺乏应有的立法规范。从业者其实很多时候也很难控制一个度。信息收集到什么程度,用什么样的方式,才不算违法侵犯个人隐私。这门学科很有威力的武器,可以用来为善,也可以用来作恶。对于专业从业者来说,要经常研究最新的法律法规,才能保护自己和客户的权益。
作者简介:
药姐爱安全,开源信息挖掘/信息安全爱好者。常驻北美,爱好和各个国家的信息安全爱好者、白帽黑客、黑客交流学习。定期在北美组织信息安全行业从业者和公司,做技术分享会。对中美信息安全行业变化非常关注。
未来一段时间,我除了网络信息挖掘和隐私保护,还会开始写一些企业开源信息挖掘(Enterprise Osint), 智能硬件安全(IoT security) 和网络应用安全(Web Application Security/OWASP)相关的文章。
私信不回,商务合作请联络yjwork@protonmail.com