服务器日志是特定服务器执行的每个操作的详细记录。对于网络服务器,您可以获得很多有用的信息。事实上,在免费分析(如 Google Analytics)出现之前,使用AWStats等软件解析和查看网络日志是很常见的。 我最初计划就此主题写一篇文章,但开始写的时候,我意识到要讲的内容太多了。因此,我将把它分成两部分,每部分重点介绍可以在 Web 服务器日志中发现的不同问题: 这篇文章:如何检索和解析日志文件,以及如何根据服务器的响应代码(404、302、500 等)识别问题。
下一篇文章识别重复内容
鼓励有效抓取,回顾趋势,寻找模 芬兰电话 式以及一些与 SEO 无关的额外提示。 步骤#1:获取日志文件 Web 服务器日志有多种格式,检索方法取决于您的网站所运行的服务器类型。Apache 和 Microsoft IIS 是两种最常见的服务器。本文中的示例将基于 SEOmoz 的 Apache 日志文件。
请非常友好地要求他/她提供包
含一天的数据和下面列出的字段的 如果您有幸或不幸与销售人员交谈 日志文件。我建议将文件大小保持在 1 GB 以下,因为您使用的日志文件解析器可能会堵塞。如果您必须自己生成文件,则生成方法取决于您的站点托管方式。一些托管服务将它们存储在您的主目录中名为 /logs 的文件夹中,并会每天将压缩日志文件放入该文件夹中。
您需要确保它包含以下列
Host:您将使用它来过滤 欧洲比特币数据库 内部流量。在 SEOmoz 的案例中,RogerBot 花费了大量时间抓取网站,因此需要将其移除以供我们进行分析。 日期:如果您要分析多天,这将允许您按天分析搜索引擎抓取率趋势。 页面/文件:这将告诉您正在抓取哪个目录和文件,并有助于查明某些部分或某些类型的内容中存在的问题。
响应代码:了解服务器的响应
– 页面加载正常(200)、未找到(404)、服务器关闭(503) – 可以提供宝贵的洞察力,帮助了解爬虫程序可能遇到的效率低下问题。 引荐来源:虽然这对于分析搜索机器人来说不一定有用,但对于其他流量分析来说非常有价值。 用户代理:此字段将告诉您哪个搜索引擎发出了请求,如果没有此字段,则无法执行抓取分析。