选择所有数据并转到数据数据透视表

作者： drug / 23 3 月, 2025

过多的 404（未找到页面）可能意味着宝贵的抓取资源被浪费了。大量的 302 重定向可能指向您网站架构中的链接权益死胡同。虽然 Google 网站管理员工具提供了一些有关此类错误的信息，但它们并没有提供完整的画面：日志不会说谎。分析的第一步是从日志数据生成数据透视表。我们的目标是隔离蜘蛛以及正在提供的响应代码。

从最基本的层面上看

我们来看看在这一天谁在抓取 SEOmoz：我们无芬兰手机号法从这些数据中得出明确的结论，但在进一步分析时，有几点需要注意。首先，BingBot 抓取网站的速度比 BingBot 快了约 80%。为什么？其次，“其他”机器人几乎占了抓取量的一半。我们在搜索用户代理字段时是否遗漏了什么？至于后者，我们一眼就能看出，占“其他”的大部分是 RogerBot——我们将排除它。

接下来让我们看一

下我们最关心的引擎的服务器代码。我已标出如何充分利用新的布局变化我们需要仔细研究的领域。总体而言，好坏的比例看起来还算健康，但既然我们信奉“一点一滴都有帮助”的信条，那就试着弄清楚到底发生了什么吧。 1. 为什么 Bing 抓取网站的速度是 Google 的 2 倍？我们应该调查一下 Bing 的抓取效率是否低下，以及我们是否可以采取任何措施来帮助他们，或者 Google 的抓取深度是否不如 Bing，以及我们是否可以采取任何措施来鼓励更深层次的抓取。

通过隔离成功提供给

BingBot 的页面（200 个），潜在的罪欧洲比特币数据库魁祸首立即显现出来。BingBot 成功抓取的 100,000 个页面中，近 60,000 个是来自评论链接的用户登录重定向。问题：SEOmoz 的架构方式是，如果请求评论链接但未启用 JavaScript，它将重定向（服务器将其作为 200 处理）到错误页面。

由于 Bing 的抓取量有近

60% 浪费在这种死胡同上，因此 SEOmoz 阻止引擎抓取非常重要。解决方案：在所有评论和回复评论链接中添加 rel=’nofollow’。通常，告诉引擎不要抓取某些内容的理想方法是 robots.txt 文件中的指令。不幸的是，这在这种情况下不起作用，因为 URL 是在点击后通过 JavaScript 提供的。

发表评论取消回复