Sitemap详解

2,118 阅读3分钟

最近的项目有涉及到生成sitemap文件,小白我就去网上查了资料,想要了解一下sitemap和网站排名、SEO的关系。总结了一下学到的知识,在这来分享给大家。首先来介绍一下sitemap。

sitemap

sitemap的官网上是这么介绍的:

站点地图是网站管理员向搜索引擎通知其网站上可用于抓取的网页的简便方法。

简单的说,这个文件就是为搜索引擎服务的。但是对于每个搜索引擎是如何抓取你网站的sitemap文件,会参考哪些数值,有什么规范要求,需要去查看各搜索引擎提供的文档。比如说,Google目前不会使用站点地图中的 属性。百度要求推送的文件要小于10MB等。

如果你希望你的网站排名高一点,或者搜索引擎能更快速的收录你的网站,那么我还是建议你最好去详细看一下相关的文档。

sitemap组成

最简单的sitemap文件就是一个txt文件,你只需要把你的网站所有的网页的链接列出来即可。另外一种就是XML文件,它可以收录更多信息,更好的帮助搜索引擎爬虫。

XML文件格式要求如下:

  1. 由和元素作为根元素。
  2. 每个url由</url/>标签包裹,中可包含多个标签。
  3. 每个标签中必须包含标签。

在XML文件中,各个标签的作用可参考如下图片。(该图片摘自百度)

sitemap主动推送

虽然搜索引擎会定期爬取各个网站,但是这个是需要时间的。所以如果你的网站有更新,并且希望及时的让搜索引擎知道,那么你可以主动将sitemap文件提交给搜索引擎。 虽然google的内容构建不依赖于提交,但是主动提交依然可能让搜索引擎了解到它无法通过爬虫获取到的内容。当然,还有一个好处就是,搜索引擎会在你提交时,测试你的网站,帮你发现潜在的问题或错误。 以下是各个主动提交sitemap文件到各个搜索引擎的方法:

现在已经有很多工具可以来生成sitemap文件,同时它们也可以帮助你将生成的sitemap文件主动推送给搜索引擎。比如说sitemapX,xml-sitemaps。但是使用这些工具存在一些问题,就是如果你的网站比较大,或者每天都会有新的页面生成,那么你就需要每天都生成新的sitemap文件,上传到你的服务器,保证当搜索引擎爬虫的时候,获得的sitemap文件是最新的。
这样做好像太过麻烦,那么你可以在前端来暴露一个接口,当取的时候,动态的生成一个sitemap文件返回。这样问题就解决了。