过多的 404(未找到页面)可能意味着宝贵的抓取资源被浪费了。大量的 302 重定向可能指向您网站架构中的链接权益死胡同。虽然 Google 网站管理员工具提供了一些有关此类错误的信息,但它们并没有提供完整的画面:日志不会说谎。 分析的第一步是从日志数据生成数据透视表。我们的目标是隔离蜘蛛以及正在提供的响应代码。
从最基本的层面上看
我们来看看在这一天谁在抓取 SEOmoz: 我们无 芬兰手机号 法从这些数据中得出明确的结论,但在进一步分析时,有几点需要注意。首先,BingBot 抓取网站的速度比 BingBot 快了约 80%。为什么?其次,“其他”机器人几乎占了抓取量的一半。我们在搜索用户代理字段时是否遗漏了什么?至于后者,我们一眼就能看出,占“其他”的大部分是 RogerBot——我们将排除它。
接下来让我们看一
下我们最关心的引擎的服务器代码。 我已标出 如何充分利用新的布局变化 我们需要仔细研究的领域。总体而言,好坏的比例看起来还算健康,但既然我们信奉“一点一滴都有帮助”的信条,那就试着弄清楚到底发生了什么吧。 1. 为什么 Bing 抓取网站的速度是 Google 的 2 倍?我们应该调查一下 Bing 的抓取效率是否低下,以及我们是否可以采取任何措施来帮助他们,或者 Google 的抓取深度是否不如 Bing,以及我们是否可以采取任何措施来鼓励更深层次的抓取。
通过隔离成功提供给
BingBot 的页面(200 个),潜在的罪 欧洲比特币数据库 魁祸首立即显现出来。BingBot 成功抓取的 100,000 个页面中,近 60,000 个是来自评论链接的用户登录重定向。 问题:SEOmoz 的架构方式是,如果请求评论链接但未启用 JavaScript,它将重定向(服务器将其作为 200 处理)到错误页面。
由于 Bing 的抓取量有近
60% 浪费在这种死胡同上,因此 SEOmoz 阻止引擎抓取非常重要。 解决方案:在所有评论和回复评论链接中添加 rel=’nofollow’。通常,告诉引擎不要抓取某些内容的理想方法是 robots.txt 文件中的指令。不幸的是,这在这种情况下不起作用,因为 URL 是在点击后通过 JavaScript 提供的。