361 361Sale WordPress Care by Openbyt · WordPress 修复与运维

想让爬虫乖乖听话?Ahrefs Site Audit Sitemap 终极指南

托尼屎大颗
Ahrefs Site Audit 爆款教程:只抓取 Sitemap 页面的方法全解析

在网站 SEO 优化中,定期进行技术审查(Site Audit)是保持网站健康度的重要步骤。很多站长希望 Site Audit 只抓取 Sitemap 中的页面,以保证分析范围精准,避免爬取无关页面。本文将详细介绍在 Ahrefs Site Audit 中设置爬取范围,让其只抓取 Sitemap 中的 URL,涵盖新项目和现有项目两种情况。

一、新项目中设置只抓取 Sitemap

Step 1:创建新项目并配置 URL 来源

必须保证除了 Specific sitemaps 之外,其他选项均保持未勾选状态,这样爬虫才会从指定的 Sitemap 开始抓取页面。

Step 2:设置抓取深度

  1. 进入下一步 Crawl settings
  2. 找到 Max depth level from the seed,并将其设置为 0

此设置会告诉爬虫:不要抓取超出 Sitemap 所包含的页面,仅限于 Sitemap 内的 URL。

Step 3:完成项目配置并开始抓取

  1. 点击 Continue,完成新项目的其他配置。
  2. 等待爬虫运行完成后,在 Crawl log 中可以看到抓取结果。

需要注意的是:

若想确认爬虫只抓取了 Sitemap 中的页面,可进入 Page explorer,将筛选条件设置为 Is in sitemap = Yes,页面数量应等于已抓取的页面数。

二、在现有项目中修改为只抓取 Sitemap

有时项目已存在,但需要修改范围为仅限 Sitemap。这种情况下要特别注意:更改抓取范围会影响 Site Audit 的整体指标。若希望保留原始数据,可以删除现有项目并重新创建。

Step 1:进入现有项目设置

Step 2:运行新一轮抓取

  1. 回到 Site Audit 页面,点击项目。
  2. 点击 New crawl 按钮,让 Ahrefs 重新爬取网站。
  3. 爬虫完成后,即可在 Crawl log 中查看更新后的结果。

三、总结

Ahrefs Site Audit 中,如果想让爬虫只抓取 Sitemap 内的页面,需要完成以下两步:

对于新项目,可在创建流程中设置;在现有项目中,需要进入设置页面并运行新的抓取。完成后,可以在 Page explorer 中筛选 Is in sitemap = Yes,确认页面数量与抓取结果一致。

这种方法能够帮助 SEO 人员更精准地监控核心页面的健康度,避免分散数据,也能节省爬虫资源和分析时间。

需要工程师帮你判断?

把症状、错误提示和最近改动发过来。

我们先判断风险、可能原因和安全下一步,再决定是否需要登录后台或服务器。

开始初诊

需要把这篇文章里的排查落到你的网站上吗?

把网址、错误提示、最近改动和影响范围发过来。我们先判断风险、备份状态和安全下一步;涉及数据库、支付、订单或安全问题时,不建议直接在生产站连续试错。

免费初诊 · 无需注册 · 先判断风险 提交后再决定是否修复
可上传错误截图、后台报错或页面异常截图,帮助更快判断。
提交前提醒先保留备份和错误提示,不要在生产站连续试错。