如何管理大型网站的抓取预算
优化您的网站,以便 Google 更快地找到您的内容并将您的内容编入索引,这可以帮助您的网站获得更好的知名度和流量。
互联网是一个不断发展的虚拟世界,拥有超过 1 亿个网站。
你认为谷歌可以抓取世界上的每一个网站吗?
即使拥有谷歌拥有的所有资源、资金和数据中心,它甚至无法抓取整个网络——也不想这样做。
什么是抓取预算,它重要吗?
抓取预算是指 Googlebot 在抓取网域中的网页所花费的时间和资源。
优化您的网站非常重要,这样 Google 才能更快地找到您的内容并将您的内容编入索引,这可以帮助您的网站获得更好的知名度和流量。
如果您有一个拥有数百万个网页的大型网站,那么管理您的抓取预算以帮助 Google 抓取您最重要的网页并更好地了解您的内容尤为重要。
谷歌声明:
如果您的网站没有大量快速变化的网页,或者您的网页似乎在发布当天就被抓取了,那么保持站点地图是最新的并定期检查索引覆盖率就足够了。谷歌还指出,每个页面都必须经过审查、整合和评估,以确定在抓取后将其编入索引的位置。
爬网预算由两个主要元素决定:爬网容量限制和爬网需求。
抓取需求是指 Google 希望在您的网站上抓取多少。更受欢迎的页面,即来自 CNN 的热门故事和经历重大变化的页面,将被抓取更多。
Googlebot 希望在不使服务器不堪重负的情况下抓取您的网站。为防止出现这种情况,Googlebot 会计算抓取容量限制,即 Googlebot 可用于抓取网站的同时并行连接的最大数量,以及抓取之间的时间延迟。
将抓取容量和抓取需求放在一起,Google 将网站的抓取预算定义为 Googlebot 可以抓取且想要抓取的一组网址。即使未达到抓取容量限制,如果抓取需求较低,Googlebot 也会减少对网站的抓取。
以下是管理具有 12k 到数百万个 URL 的大中型网站抓取预算的 10 大技巧。
1. 确定哪些网页是重要的,哪些网页不应该被抓取
确定哪些网页很重要,哪些网页不那么重要(因此,Google 访问频率较低)。
通过分析确定后,您可以查看您网站的哪些页面值得抓取,哪些网站的页面不值得抓取,并将它们排除在抓取之外。
例如,Macys.com 有超过 2 万个被编入索引的页面。
它通过通知 Google 不要抓取网站上的某些网页来管理其抓取预算,因为它限制了 Googlebot 抓取 robots.txt 文件中的某些网址。
Googlebot 可能会认为不值得花时间查看您网站的其余部分或增加您的抓取预算。确保分面导航和会话标识符:通过robots .txt 屏蔽
2.管理重复内容
虽然 Google 不会因存在重复内容而受到处罚,但您希望向 Googlebot 提供原创且独特的信息,这些信息既能满足最终用户的信息需求,又能提供相关且实用的信息。确保您使用的是robots .txt 文件。
谷歌表示不使用任何索引,因为它仍然会请求,但随后会删除。
3. 使用 Robots.txt 阻止抓取不重要的 URL,并告诉 Google 它可以抓取哪些页面
对于包含数百万个网页的企业级网站,Google 建议使用 robots.txt 阻止抓取不重要的网址。
此外,您还希望确保 Googlebot 和其他搜索引擎能够抓取您的重要网页、包含黄金内容的目录和理财网页。
4. 长重定向链
如果可以的话,将重定向次数保持在较小的数量。重定向或重定向循环过多可能会使 Google 感到困惑并降低您的抓取限制。
谷歌表示,长重定向链会对抓取产生负面影响。
5.使用HTML
使用 HTML 会增加任何搜索引擎的爬虫访问您网站的几率。
虽然 Googlebot 在抓取和索引 JavaScript 方面有所改进,但其他搜索引擎抓取工具并不像 Google 那样复杂,并且可能在 HTML 以外的其他语言上存在问题。
6. 确保您的网页加载速度快并提供良好的用户体验
使您的网站针对 Core Web Vitals 进行了优化。
内容加载速度越快(即不到 3 秒),Google 向最终用户提供信息的速度就越快。如果他们喜欢,Google 会继续将您的内容编入索引,因为您的网站会展示 Google 抓取运行状况,这可能会提高您的抓取限制。
7.有有用的内容
根据谷歌的说法,内容是按质量评定的,无论年龄大小。根据需要创建和更新您的内容,但通过进行琐碎的更改和更新页面日期来人为地使页面看起来是新鲜的,没有任何额外的价值。
如果你的内容满足了最终用户的需求,即有用和相关,那么它是旧的还是新的并不重要。
如果用户觉得你的内容没有帮助和相关性,那么我建议你更新和刷新你的内容,使其新鲜、相关和有用,并通过社交媒体进行推广。
此外,将您的页面直接链接到主页,这可能会被视为更重要并且更频繁地抓取。
8. 注意抓取错误
如果您删除了网站上的某些网页,请确保网址为永久移除的网页返回 404 或 410 状态。404 状态代码是一个强烈的信号,表明不要再次抓取该网址。
但是,被屏蔽的网址在抓取队列中停留的时间会更长,并且在移除屏蔽后会重新抓取。
- 此外,Google 声明删除任何软 404 页面,这些页面将继续被抓取并浪费您的抓取预算。要对此进行测试,请进入 GSC 并查看索引覆盖率报告,了解是否存在软 404 错误。
如果您的网站有许多 5xx HTTP 响应状态代码(服务器错误)或连接超时发出相反的信号,则抓取速度会变慢。Google 建议您注意 Search Console 中的“抓取统计信息”报告,并将服务器错误数量降至最低。
顺便说一下,谷歌不尊重或遵守非标准的“抓取延迟”机器人.txt规则。
即使您使用了 nofollow 属性,如果您网站上的其他网页或网络上的任何网页未将该链接标记为 nofollow,该网页仍会被抓取并浪费抓取预算。
9. 让站点地图保持最新
XML 站点地图对于帮助 Google 找到您的内容非常重要,并且可以加快速度。
保持站点地图网址是最新的,使用<lastmod>
标签更新的内容,并遵循SEO最佳实践,包括但不限于以下内容,这一点非常重要。
- 仅包含您希望搜索引擎编入索引的 URL。
- 仅包含返回 200 状态代码的 URL。
- 确保单个站点地图文件小于 50MB 或 50,000 个网址,如果您决定使用多个站点地图,请创建一个索引站点地图,列出所有站点地图。
- 确保您的站点地图是 UTF-8 编码的。
- 包括指向每个 URL 的本地化版本的链接。
- 使您的站点地图保持最新状态,即每次有新网址或旧网址被更新或删除时,都会更新您的站点地图。
10.建立一个良好的网站结构
拥有良好的网站结构对于您的索引和用户体验的 SEO 性能很重要。
网站结构可以通过多种方式影响搜索引擎结果页面 (SERP) 结果,包括可抓取性、点击率和用户体验。
网站结构清晰、线性,可以有效地利用抓取预算,这将有助于 Googlebot 找到任何新的或更新的内容。
永远记住三次点击规则,即任何用户都应该能够通过最多三次点击从您网站的任何页面转到另一个页面。
11. 内部链接
搜索引擎越容易抓取和浏览您的网站,爬虫就越容易识别您的结构、上下文和重要内容。
将内部链接指向某个网页可以告知 Google 该网页很重要,有助于为给定网站建立信息层次结构,并有助于在整个网站中传播链接权益。
12. 始终监控抓取统计信息
请务必查看和监控 GSC,了解您的网站在抓取过程中是否存在任何问题,并寻找提高抓取效率的方法。
您可以使用“抓取统计信息”报告来查看 Googlebot 在抓取您的网站时是否存在任何问题。
如果 GSC 中报告了您网站的可用性错误或警告,请在主机可用性图表中查找 Googlebot 请求超出红色限制线的实例,点击进入图表以查看哪些网址失败,并尝试将这些错误或警告与您网站上的问题相关联。
此外,您还可以使用网址检查工具测试您网站上的一些网址。
如果网址检查工具返回主机负载警告,则表示 Googlebot 无法抓取您网站上发现的尽可能多的网址。
最后
抓取预算优化对于大型网站至关重要,因为它们具有广泛的规模和复杂性。
由于页面和动态内容众多,搜索引擎爬虫在高效和有效地抓取和索引网站内容方面面临挑战。
通过优化您的抓取预算,网站所有者可以优先抓取重要和更新的页面并编制索引,确保搜索引擎明智有效地使用其资源。
此优化过程涉及改进网站架构、管理 URL 参数、设置抓取优先级和消除重复内容等技术,从而提高搜索引擎可见性、改善用户体验并增加大型网站的自然流量。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!