Recent Posts

python爬虫入门-05-URL去重

less than 1 minute read

本期我们来聊聊URL去重那些事儿。以前我们曾使用Python的字典来保存抓取过的URL,目的是将重复抓取的URL去除,避免多次抓取同一网页。爬虫会将待抓取的URL放在todo队列中,从抓取到的网页中提取到新的URL,在它们被放入队列之前,首先要确定这些新的URL是否被抓取过,如果之前已经抓取过了,就不再放入队列。

gunicorn简介

1 minute read

WSGI协议: Web框架致力于如何生成HTML代码,而Web服务器用于处理和响应HTTP请求。Web框架和Web服务器之间的通信,需要一套双方都遵守的接口协议。WSGI协议就是用来统一这两者的接口的。

python实用技法-05

less than 1 minute read

需求: 我们有一个元素序列,想知道在序列中出现次数最多的元素是什么?

python爬虫入门-04-分布式爬虫

less than 1 minute read

上一篇介绍的通用爬虫架构不同,下面是一个聚焦爬虫的架构图,与前者相比,它不仅要保存网页,还要提取出网页中的指定内容。

python爬虫入门-03-爬虫架构

less than 1 minute read

回顾上一期,我们在介绍了爬虫的基本概念之后,就利用各种工具横冲直撞的完成了一个小爬虫,目的就是猛、糙、快,方便初学者上手,建立信心。对于有一定基础的读者,请不要着急,以后我们会学习主流的开源框架,打造出一个强大专业的爬虫系统!不过在此之前,要继续打好基础,本期我们先介绍爬虫的种类,然后选取最典型的通用网络爬虫,为...

python实用技法-05

less than 1 minute read

需求: 我们想要实现一个队列,它能够以给定的优先级来对元素排序,且每次pop操作时都会返回优先级最高的那个元素

python实用技法-04

less than 1 minute read

需求: 我们想在某个集合中找出最大或最小的N个元素

python实用技法-02

less than 1 minute read

我们想在字典上对数据执行各式各样的计算,例如:最大值、最小值、排序等