但被恰如其名的“扭曲”方法折服了。Gevent 是一把解开爬虫难题的利剑。当然,它不是万能药,我们编写了大量代码来帮助简化常见的爬虫任务。 例如URL 解析和规范化,以及robots.txt 解析。事实上,qless 的 Python 绑定 甚至有一个与 gevent 兼容的模式,因此我们仍然可以保持作业代码简单,同时充分利用 gevent 的强大功能。
实际上几个爬虫程序就足以让我们保持稳定状态
但我们有时想要加速爬虫速度(用于 捷克手机号 积压任务,或在实验时重新爬虫)。 作为协程提供的功能的一个例子,下面是我们对各种状态代码的爬虫率,降幅为 10%。这张图来自我们使用 10 台中等大小的机器的时候,在保持礼貌的同时,它们每秒可以处理大约 1250 个 URL(包括解析),每天处理大约 1.08 亿个 URL,每百万的成本约为 1 美元。
当然这一步只是制作
Fresh Web Explorer 工作 时尚市场研究揭示最令买家反感的因素 的一部分。 脱铬 我们的抓取过程涉及少量处理。 解析页面、查看一些标题等,但此过程最有趣的功能是去色:尝试删除页面中的所有非内容标记,从侧边栏到标题再到广告。 这是一项艰巨的任务,没有完美的解决方案。尽管如此,通过大量的时间和巨大的努力(其中绝大多数是由我们的数据科学家Matt Peters 博士提供的),我们找到了一个合理的方法。
在某些领域
去铬化是一个活跃的研究领域,而且 白俄罗斯商业名录 肯定有一些有前途的方法。许多早期的方法(包括我们工具部分中的 blogscape,Fresh Web Explorer 的前身)依赖于从给定站点查找许多示例,然后使用这些信息尝试找到常见的元素组。 这有一个明显的缺点,即需要能够在任何给定时间快速轻松地访问来自任何给定站点的其他示例。
不仅如此
它对网站标记的更改和 chrome 的更改非常敏感。 目前大多数研究的重点是寻找一种通过单个页面示例区分 chrome 和内容的方法。我们实际上是通过实施论文中描述的几种算法来开始我们的工作的。 也许最容易从概念上理解的是一种算法,即对每个块的文本量进行分布(这不一定与 HTML 标签具有 1:1 的对应关系),然后在其中找到块。