默认情况下,Apache 日志文件不带用户代理或引荐来源返回 – 这称为“通用日志文件”。您需要请求“合并日志文件”。让您的系统管理员的工作更轻松(甚至可能令人印象深刻)并请求以下格式: 日志格式“agent}i\”” 对于 Apache 1.3,你只需要“” 对于那些需要手动提取日志的人,您需要在 httpd.conf 文件中创建一个包含上述内容之一的指令。
请参见此处。步骤
解析日志文件 您现在可能有一个 芬兰手机号码格式 压缩日志文件,如“mylogfile.gz”,是时候开始深入研究了。有无数的免费和付费软件产品可用于分析和/或解析日志文件。我选择产品的主要标准包括:查看原始数据的能力、解析前过滤的能力以及导出到 CSV 的能力。我选择了 ,它已经为我工作了好几年。
我将在本演示中使用它和
Excel。我使用 AWstats 进行过基 正如您在此处看到的 本分析,但发现它没有提供我需要的控制和灵活性。我相信还有其他一些产品可以完成这项工作。 第一步是将文件导入解析软件。大多数网络日志解析器都会接受各种格式,并有一个简单的向导来指导您完成导入。在第一次分析时,我希望看到所有数据,而不应用任何过滤器。
此时您可以做以下两件事之一
在解析中准备数据并导出以在 Excel 中进行 欧洲比特币数据库 分析,或者在解析器本身中进行大部分分析。我喜欢在 Excel 中进行分析,以便创建趋势模型(我将在后续文章中介绍这一点)。如果您想快速分析日志,使用解析器软件是一个不错的选择。 导入向导:确保在 URL 字符串中包含参数。正如我将在后面的帖子中演示的那样,这将帮助我们找到有问题的抓取路径和重复内容的潜在来源。
您可以选择在解析数据之前使用
一些基本的正则表达式过滤数据 。例如,如果您只想分析网站特定部分的流量,您可以执行以下操作: 将数据加载到日志解析器后,导出所有蜘蛛请求并包含所有响应代码: 将文件导出为 CSV 并在 Excel 中打开后,请按照以下步骤和示例准备将数据转化为分析和操作: 1. 页面/文件:在我们的分析中,我们将尝试暴露可能存在问题的目录,因此我们希望将目录与文件隔离开来。