[Web翻译]平均网页(分析800万个网站的数据)

193 阅读5分钟

原文地址:css-tricks.com/average-web…

原文作者:css-tricks.com/author/cata…

发布时间:2019年5月16日

以下是Catalin Rosu的客座文章,他和一些同事一起,挖出了一大堆关于网站HTML内容的数据。这是同类研究中最新的研究,看到的结果非常吸引人。我觉得把最前面的结果和我猜测会赢的结果进行比较特别有趣。

我们都有过这样的经历。我们试图改进我们的HTML代码,使它变得干净、漂亮和可读。我们这样做是为了追求更好的语义和更好的可访问性,以便每个人都能使用它。这是我们的首要任务。而且我们总是有问题。

  • 什么是结构化标记的最佳方式? What is the best way to structure the markup?
  • 别人是怎么做的?

诸如此类的问题在我的脑海中流转。我想知道,随着新的网络技术的出现,现在人们是如何编写标记的。于是,我和AWRCloud的几位同事合作,我们从Google前二十名的结果中得出了一组超过800万个页面的数据。

在这之前的研究

早在2005年,HTML5规范的编辑伊恩-希克森(Ian Hickson)就对10亿多一点的文档样本进行了分析,想看看网络是由什么组成的。十亿是一个巨大的数字,但对Google来说,没有什么是不可能的。他通过这些海量的文档,提取了流行的类名、元素、属性以及相关元数据等有价值的信息。优秀的成果后来被发表为《Web Authoring Statistics》,这仍然是有史以来最强大的Web创作研究。

最近,在2008年,Opera元数据分析和挖掘应用爬虫MAMA,最终分析了大约350万个URL。这项令人印象深刻的工作的作者Brian Wilson通过公布详细分析页面结构(包括HTML、CSS和JavaScript)的结果来扩展这项研究。

来自Web Authoring Statistics的分析之一,后来被证明对正在进行的HTML5开发工作至关重要,是这些HTML文档中最流行的类名列表。Opera MAMA爬虫也搜索了最常见的类名,除了Google的结果,他们也公布了相关结果,就是给元素的流行ID属性值。

这项研究给我们带来了什么启示?

这项研究的数据来自于8,021,323个索引页,这些索引页是从谷歌前二十名的约3000万个关键词的结果中收集的,是按照关键词量来选择的。意思是:我们有3000万个关键词。我们对其中的每一个进行谷歌搜索,并将前20个结果的URL添加到列表中,并删除重复的内容。

我们只能假设这些网页与普通网民的相关性非常高。这是基于这些网站很有可能是与搜索结果位置相称的热门和高流量的网站。

这个数据有多新鲜?

最新的一组数据是2016年5月20日的。

这项新的研究永远不会超过谷歌在2005年进行的前一项研究。这也不是为了克服Opera的伟大研究。它是关于对互联网上最流行和最成功的网页实际使用的标记找到新的和相关的见解。

那么,现在一般的HTML页面是怎样的呢?请看下面的截图,并查看研究报告中的全部统计数据。

统计数据

经过我们的研究,我们发现,一般的网站索引页面使用了二十六种不同的元素类型。

大多数网站使用了二十六种不同的HTML元素,给不给力,奇怪的是高峰期有9种。

网页上使用最多的二十六种元素,按频率排序。

不出所料,<head><html>在所有网站上都被使用。稍微出乎意料的是,<body>占99%--也许是一个非常大的网站出现了奇怪的错误?列表底部的表格元素仍然在所有网站上出人意料地占了近三分之一。

在指定页面使用哪个版本的(X)HTML的文档类型声明中,最新的HTML5 doctype显然处于领先地位。

在所有网站中,有近三分之二的网站声明自己使用的是HTML5。

如果我们查看所有专门关于告诉浏览器或搜索引擎关于网站以及如何样式的元素,我们发现了大约1.75亿个元素,以下是它们的细分情况。

这1. 05亿个元素的内容划分是这样的:

<h3>s是最受欢迎的标题元素和整体内容分段元素。

在10亿个文本内容元素中。

<div>占据了绝对的领先地位。

网络的未来是什么?

我们Web开发者和Web内容创建者对使用情况、统计数据和浏览器支持都很好奇和感兴趣。这些都是导致2005年的类名发现的原因,这些名字今天被称为最流行的HTML5标签。

网络正在快速发展。这并不是什么新鲜事,但会让人感觉难以承受。趋势每年都在变化,作为一个网络内容创建者,需要有动力和努力才能跟上时代的步伐。想一想十年前的标记和普通网页是怎样的,现代网页今天又是怎样的。

我们还利用这项研究来研究Web Components等新兴技术。虽然Web Components允许作者创建任意命名的元素,但我们可以寻找用于创建Web Components的标准元素。

没有人能够预测未来。我们只能猜测十年后的普通网页会是什么样子。下一次我们运行这项研究时(我们考虑每季度一次),我们会看到Web Components这样的东西上升吗?

再说一遍,完整的数据集在这里


通过www.DeepL.com/Translator (免费版)翻译