引言
暗网包含的信息是常规搜索引擎无法访问的。需要专门的软件来访问暗网,即便如此,关于如何开始在网站上寻找内容,也没有明确的指导。一些可以在暗网上访问的网站被独立列出。可以在一些著名的维基百科和社交媒体网站(如Reddit)上找到这些列表。然而,列出的站点仍然较少,因为大多数列出的站点要么不再活跃,要么已经更换了主机提供商,被执法机构关闭,或者早已从视野中消失。这就是普通人可以找到暗网的地方。分析是暗网的关键;技术用户和执法机构都有他们的方法。这些暗网的内容通过专门的工具和程序进行评估。传统搜索引擎的爬行策略在暗网上不起作用,因为暗网中的内容无法找到。相互链接的网站能更有效地被爬行。由于黑网缺乏超链接,因此难以进行索引,爬行黑网也就被阻止了。在本章中,我们将讨论如何分析暗网内容。
以下内容将涵盖:
- 深网与表面网
- 传统网络爬虫的机制
- 显现深网内容
- 深网站分析
深网与表面网
为了理解网页内容分析的工作原理,思考一下表面网索引引擎是如何工作的会很有帮助。它们的工作方法是创建已爬取网站的索引。带有特定计算机脚本的机器人按组织好的方式遍历互联网,这被称为网页爬行。搜索引擎不断地对互联网进行爬行,以扩展或刷新其索引。在表面网中,这一过程几乎没有限制。搜索引擎不会爬行部分表面网站,因为爬行会占用被爬取网站的资源。通过在网站根目录下添加机器人.txt文件命令,可以实现这一限制。由于今天互联网上产生的数据量巨大,搜索引擎的爬行变得越来越困难。例如,谷歌的表面网索引中仍然存在一些空白。
另一方面,搜索引擎无法像爬取表面网那样,按相同方式探索或分析深网。当网页相互超链接时,爬行最为有效。爬虫发现外部链接时,会创建指向另一个网站的链接。因此,各个网页之间会形成一个连接网。爬虫只能访问静态页面,因此动态生成的内容不适合爬行。然而,互联网的大部分内容都包含常规爬虫无法索引的秘密资料。因此,搜索引擎无法获取这些内容。以下是深网数据特征的综合列表:
- 用户的请求触发动态内容的生成。用户想查看的特定数据特征取决于他们的输入。当提供输入时,系统会生成并返回一个动态生成的HTML页面作为输出。
- 无链接——深网中的页面彼此之间没有链接。
- 非文本内容,包括多媒体文件和非HTML内容,非常难以索引。
- 预计深网的总体规模约为表面网的500倍。在深网和黑网中,大约有20万个网站。由于标准搜索引擎无法爬取它们,因此无法检索其内容(见图12.1)。
传统网页爬虫的机制
用于索引表面网站的爬虫被称为传统爬虫。Yahoo Search、Google 和 Bing 就是几个例子。它们的操作过程如图 12.2 所示。
URL 是爬虫的起始点。这个 URL 可能是在爬行另一个网站时发现的。爬虫将检索该 URL 下的所有网页,并提取网页中的文本和超链接。
这些提取的数据会被提交给索引器,索引器将其整理成不同的类别。例如,关键词、链接的页面、作者等信息都可以被包含在内。类似的过程将从已经索引的 URL 中的超链接开始。
爬虫没有机制来区分包含表单的页面和包含半结构化数据的页面。必须从表单中收集数据,因此它们必须使用循环来收集这些数据。
揭示深网内容
要研究深网的内容,必须首先访问深网。要访问这些数据,必须首先将其显现出来。以下是从黑网中揭示内容的一种方法示例:
- 定位来源
- 从不同来源选择数据
- 将选定的数据传输到数据分析系统
黑网中可以找到来自数据库、互联网服务器和动态网站的内容。数据源可以合并或集成到深网信息的分析中。然而,在某些情况下,这种集成可能不起作用,原因有四个。首先,可能会出现重复数据。其次,如果集成系统引入了未使用的数据,数据存储库可能会超载。因此,数据集成系统的结论质量会降低。第三,增加集成系统中的数据量可能会导致低质量数据的加入。将数据纳入集成系统具有显著的成本。这些成本必须在收集和处理阶段为存储和集成数据而支付。
数据提取
完成模式匹配并识别合适的数据源后,数据就可以被提取。有许多方法可以从深网中提取数据。网站不会被完全下载,因为这样做在金钱和时间上都极为昂贵。数据只会从文件的相关部分中提取。
源的模式匹配
在前一阶段结束后,数据被揭示出来,分析过程开始。模式匹配通过将提取的数据与搜索的关键词或短语进行比较来确定数据的相关性。根据输入的请求,匹配模式的数据来源会被检索到。这样可以使深网页面的检索和处理变得更加简便和廉价。模式的使用确保了处理资源被分配给包含有价值信息的数据源。
数据选择
即使是简单的在线搜索,也能找到数百或数千个结果页面。它们都充满了从搜索词中获得的相关数据。然而,并不是所有的搜索结果都相关或高质量。有些可能质量较差。深网也有类似的模式。当使用关键词进行搜索时,可能会发现成千上万的深网来源,其中包含相关信息。然而,它们在质量上有所不同。因此,必须对这些数据进行排序。
因此,许多网站会投资于搜索引擎优化(SEO),以提高排名。网站所有者并不期望他们的网站出现在深网搜索结果中,因此没有SEO。因此,如何索引提取的数据成为搜索引擎或搜索技术的责任。以下是执行基本排名的步骤:
- 定义用于确定搜索相关性的参数。示例包括关键词、短语、标题和文本大小,这有助于排除低质量的搜索结果。
- 本文中列出了其他质量判断标准。这里制定了额外的标准,以定义高质量来源,这是质量评估模型的一部分。
- 根据质量维度和评估模型对检索到的源进行排名,并根据预定的阈值在质量评分标准上进行评分。
深网网站分析
深网的分析需要大量的时间和精力,并且涉及以下几个独立的步骤。
深网网站搜索分析的资格
在表面网络上,一个常见的问题是内容复制和重复网站。由于重复的搜索结果可能会多次包含相同的信息,这会显著影响返回信息的准确性。含有重复内容的网站会受到表面搜索引擎的惩罚。因此,如果搜索引擎发现一个网站的所有内容几乎相同,那么新内容的排名会降低。深网在内容分析中面临类似的问题。可能会有很多结果,但其中一些可能是重复的。在此之前,必须清除重复项。然后,独特的数据将被发送到下一阶段的分析。验证列出的结果是真实的后,您可以进入下一步。
在一些深网结果中,可以找到非HTML内容,这与在表面网找到的大多数结果不同。访问深网内容需要特殊的访问权限。大多数情况下,这些甚至不是网站,有些信息需要完全删除。最终,真正的网页会出现在搜索结果中。由于分析固有的复杂性和不精确性,用于确定搜索结果是否符合相关性的算法会不断更新。
深网网站数量:分析
一些人和组织,如执法机构,必须监控深网中的非法活动。例如,执法机构必须调查一个新的毒品市场或一个儿童色情网站。跟踪深网网站的总数可以帮助我们确定何时需要检查其他网站。说有很多深网页面并不是一种猜测。因为特殊分析方法,深网中有如此多的网站。重叠分析用于估计深网网站的总数。为了进行重叠分析,使用已在深网中爬取的搜索引擎(以及自定义的搜索引擎)。
根据搜索引擎提供的覆盖范围,采取这种方法进行分析。在成对比较中,考虑来自两个来源的结果数量和不重叠的共享结果的数量(图12.3)。
例如,在图12.3中,字母na和nb代表来自两个不同来源的列表。估算的总人口规模,即网站的总数量,表示为N。
在此背景下,搜索结果列表之间的重叠度为N0。有了这些信息,我们可以做出一个关于深网整体人口的合理估计。由于这种方式可能会被解释为模糊不清,我们应该考虑另一种选择。假设总人口是100,并且我们希望确定重叠分析是否能为我们提供相同的结果。如果两个来源各自拥有50个条目,且它们平均共享25个条目,表明它们都是唯一的,那么每个来源都不应该列出25个条目。结果,它们应该提供25个独特的产品。为确定总人口,需要执行以下步骤:50/(25/50)。最终结果为100,对应于先前所述的总人口。重叠分析和除法产生了相同的数字。然而,由于涉及确定两个来源的列表以及它们之间共享或未共享的列表的程序,这在深网上更难实现。
在这种形式的检验中,有两件事需要记住。首先,确定来源的列表数量应当准确无误。整个调查的成功取决于这一点。如果列表数量计算不准确,整个分析技术的准确性将受到影响。其次需要考虑的是如何生成这些列表,它们应当得出自己的结论。在这种情况下,我们的研究打破了第二个标准,导致结果较低。所使用的列表是搜索引擎的列表,这并不意味着它们是独立的。因为大多数可搜索的数据库是相互链接的,因此是否认为深网搜索引擎是自给自足的仍然存在争议。当这两个因素结合在现实环境中并进行几次成对比较时,就可以计算出更精确的深网网站数量估算。
深网规模分析
估算深网规模小于表面网规模可能看起来不太寻常。深网占据了互联网的95%,而表面网仅占5%。因此,深网的实际规模应该是巨大的。从表面来看,像谷歌这样的网络搜索引擎已经索引了互联网上数十亿的文档(网页也被视为文档),但这些仅代表互联网的不到5%。根据一些估算,深网的大小为3.4 TB。然而,鉴于确定深网中文档数量的难度,了解这一估算是如何得出的将会很有趣。为了获取这些数据,使用了一种分析方法,主要是估算。
平均值被用来大致估算这一互联网部分的总规模。使用典型的文档和数据存储大小,然后使用一个倍数来计算深网的预计规模。由于这些数字非常庞大,而且计算平均大小非常困难,因此评估样本站点大小需要花费很长时间。在我们的上一个例子中,参与者共有两人。
总共有100个网站组成了样本。我们将样本的平均人口规模乘以一个因子,以获得所有100个网站的总体规模。
如果认为深网的人口为17,000个网站,那么可以使用这种方法来确定其规模。首先,我们必须识别潜在的样本网站。我们可以以95%的置信区间随机选择100个网站。然后,我们可以使用这100个样本来计算每个站点的记录或文档数量。可以通过文档的总数和大小计算这些站点的平均页面大小。然后,可以使用这些站点的平均页面大小来计算一个深网站点的总页面大小。建立了每个深网站点的总体大小之后,可以得出一个平均值。最后,使用深网站点的平均大小乘以深网站点的总数,得出深网的规模。
分析内容类型
媒体常常因曲解深网而受到批评。他们通常将其描绘成一个充满危险的互联网区域,犯罪在这里发生。在他们看来,这个地方是任何人都不应进入的,因为担心被黑客攻击、IP地址被存储,甚至可能被绑架者追踪到。媒体对暗网的偏见来源于他们仅在执法部门关闭毒品市场、监禁与非法活动相关的深网网站创始人或关闭武器销售网站时才报道这个部分的互联网。他们很少以其他方式报道这个网络区域。事实上,暗网是一个庞大的领域,内容丰富多样。仅仅根据媒体的看法来判断它是不公正的。暗网促进了各种活动;在报道这一被忽视的互联网部分时,媒体要么没有意识到,要么故意忽视其中的许多活动。
然而,找出暗网上有哪些内容是一个困难的任务。这是因为这些内容被设计成隐藏的。要确定暗网上可用的内容,必须进行一些分析。由于暗网庞大且无法给出精确的数字,必须采用一些成本效益高的方法来发现各种数据和服务。抽样是研究深网内容种类最具成本效益的方法。如果估计暗网上有17,000个网站,可以评估其中700个样本。可以通过这些样本评估每个站点上的数据种类,然后对暗网进行分类。
分析网站的受欢迎程度
一个深网网站的访问量、页面浏览量和引用量都能决定它的受欢迎程度。Alexa是一个基于网络的系统,定期监测页面访问并评估深网网站的受欢迎度。Alexa分析了高达71%的深网页面,并保持它们的受欢迎度。这是通过一个基于互联网的通用功能实现的,它能够追踪页面访客(见图12.4)。
日志分析
另一方面,深网分析不仅仅是数据的检索。在一些恶意用途,如黑客攻击通信网络时,也可能会进行分析。与普遍认知相反,Tor客户端与暗网服务器之间的连接并不安全。实际上,可以查看进出暗网的流量。利用日志来帮助深网分析在一些概念上有所进展。
NetFlow协议理论上可以用来查看影子网络。攻击者可以通过查看作为直接Tor节点或其附近路由器的NetFlow日志,来查看这些日志中包含的信息。这些日志可以用于进行深网调查,它们存在于Tor网络内,包含大量信息。图12.5展示了NetFlow记录中可以找到的信息:
NetFlow分析能够查看并分析进出Tor的流量,可能能够揭示多达81%的暗网用户的身份。思科(Cisco),全球领先的网络设备和服务供应商,常常使用NetFlow技术。思科路由器进出网络的流量会使用NetFlow进行记录,管理员主要用NetFlow来监控路由器的拥堵。除了思科之外,许多其他公司也使用NetFlow作为网络设备的标准。在浏览暗网时,你很有可能会遇到这项技术。
在Chakravarty的研究中,NetFlow被用于实验室和现实世界中的暗网流量分析。这项研究是同类研究中的首个,使用分析工具来了解哪些用户正在浏览暗网中的特定内容。研究从在Tor的服务器端制造干扰开始,然后观察这种扰动在客户端上出现的位置。使用统计相关性来进行观察。研究在实验室中取得了100%的成功率,但当相同的分析技术应用于现实世界时,只有81%的成功率。研究表明,暗网并非完全安全,因为它可能会被用来进行身份揭示和消费行为分析。研究发现,持续的Tor网络攻击者可以通过破坏和观察进出口路由的流量,进行无限次数的流量分析。这种流量分析技术在图12.6中得到了展示。
这项调查使用了深网服务器和网站。网站访客从服务器上下载了一个大文件。通过在服务器上注入代码,研究人员能够访问路由器的NetFlow。暗网服务器通过Tor的匿名网络中继数据,同时获取NetFlow日志。
在这种情况下,相关性分析将非常有用。在几分钟内,最终用户将继续通过Tor网络接收来自服务器的数据。同时,数据通过的路由器的NetFlow日志也会在此期间进行检查。通过使用一个路由器的NetFlow日志,研究人员可以将流量与一个匿名客户端进行连接。这将显示客户端的出站节点以及他们试图访问的内容类型。下面是另一个如何进行暗网研究的示例,如图12.7所示。
总结
本章讨论了深网分析。由于表面网和深网之间的差异,深网的索引和分析是困难的。本章介绍了典型的网页爬虫(如表面网搜索引擎使用的爬虫)的工作原理。表面网页的基本性质和超链接结构使它们可以被爬虫抓取。一旦爬虫完成当前页面内容的抓取,它会寻找任何链接的页面并继续爬取。
相比之下,深网没有超链接。因此,标准搜索引擎难以分析和索引暗网页面。因此,深网的研究是有条理地进行的。这是第一步:揭示隐藏的网络内容。找到这些内容需要进行彻底的搜索,并提取相关数据,然后选择最相关的数据进行分析。本章涵盖了对深网网站使用的各种分析方法。这包括查看网站的内容和受欢迎程度、其规模、网站的总数,甚至是日志等内容。由于日志分析是一种独特的调查方法,因此得到了特别的关注。为了入侵暗网网站,采用了这种技术。根据调查,受损的路由器的NetFlow日志文件被用来进行分析。通过匿名网络,研究人员可以确定谁在使用网络以及他们正在访问哪些类型的内容。在深网中,这类分析是最常见的。