个好的开始是查看原始数据

本文的其余部分讨论了确保数据和结果准确的六种最佳实践和建议。尽情享受吧! 1. 将数据与分析分离,并使分析可重复 最佳做法是将数据和分析数据的过程分开。这也使得您可以重复分析不同的数据,无论是由您自己还是其他人进行。出于这个原因,大多数数据科学家不使用 Excel,因为它将数据与分析结合在一起,很难重复。

相反他们经常使用高级统计导向脚本语言

如 或通用语言,如 Python。 在 Moz,数据 法国电话号码列表 科学团队使用 Python。我们的大数据团队也大量使用 Python,这使得我们的算法与他们的生产代码轻松集成。 2. 如果可能的话,用其他来源检查你的数据 在许多情况下,这一步可能是不可能的,但如果可以的话,这是确保数据准确的最佳方法。

在 Moz 的案例中

我们能够将 Google 网站管理员工具 联系我给我发推文数据与 Google Analytics 数据进行对比。 比较数据时需要关注的方面包括总总数、子类别数量或平均值。在我们的案例中,我们检查了总搜索访问量,并抽查了几个不同关键词的访问量。 3. 深入研究数据 这是最有趣的部分,我们可以利用数据进行探索性数据分析。

看看有什么突出之处

就 Google 网站管理员工具数据而言,我 西班牙 电话号码 注意到,在只有少量搜索的长尾案例中,它们并不总是提供搜索量。相反,数据中有“<10”或“-”而不是数字,需要小心处理,因为它们会导致缺失值。 这时,你也应该戴上侦探帽,开始对数据提出问题。我们查看了一些品牌关键词,如“seomoz”和“页面权威性”,还有一些非品牌关键词,如“作者排名”和“架构测试工具”。

查看完数据后

我问自己:“嗯,我想知道品牌关键词和非品牌关键词的点击率或平均搜索排名是否存在差异?” 通常到了这个时候,我就会迫不及待地开始回答难题,但我会尽量抵制住冲动,直到再进行几次健全性检查。单变量分析是一个很好的工具,可以帮助您在走得太远之前检查自己,尤其是因为大多数软件包都提供了一种简单的方法来做到这一点,而且它通常会产生第一个有趣的结果。

 

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部