python

python爬虫入门-05-URL去重

less than 1 minute read

本期我们来聊聊URL去重那些事儿。以前我们曾使用Python的字典来保存抓取过的URL,目的是将重复抓取的URL去除,避免多次抓取同一网页。爬虫会将待抓取的URL放在todo队列中,从抓取到的网页中提取到新的URL,在它们被放入队列之前,首先要确定这些新的URL是否被抓取过,如果之前已经抓取过了,就不再放入队列。

gunicorn简介

1 minute read

WSGI协议: Web框架致力于如何生成HTML代码,而Web服务器用于处理和响应HTTP请求。Web框架和Web服务器之间的通信,需要一套双方都遵守的接口协议。WSGI协议就是用来统一这两者的接口的。

python实用技法-05

less than 1 minute read

需求: 我们有一个元素序列,想知道在序列中出现次数最多的元素是什么?

python爬虫入门-04-分布式爬虫

less than 1 minute read

上一篇介绍的通用爬虫架构不同,下面是一个聚焦爬虫的架构图,与前者相比,它不仅要保存网页,还要提取出网页中的指定内容。

python爬虫入门-03-爬虫架构

less than 1 minute read

回顾上一期,我们在介绍了爬虫的基本概念之后,就利用各种工具横冲直撞的完成了一个小爬虫,目的就是猛、糙、快,方便初学者上手,建立信心。对于有一定基础的读者,请不要着急,以后我们会学习主流的开源框架,打造出一个强大专业的爬虫系统!不过在此之前,要继续打好基础,本期我们先介绍爬虫的种类,然后选取最典型的通用网络爬虫,为...

python实用技法-05

less than 1 minute read

需求: 我们想要实现一个队列,它能够以给定的优先级来对元素排序,且每次pop操作时都会返回优先级最高的那个元素

python实用技法-04

less than 1 minute read

需求: 我们想在某个集合中找出最大或最小的N个元素

python实用技法-02

less than 1 minute read

我们想在字典上对数据执行各式各样的计算,例如:最大值、最小值、排序等

python实用技法-03

less than 1 minute read

现在有两个字典,我们想找出它们中间可能相同的地方(相同的键、相同的值)

python字典操作

1 minute read

Python 中的字典是Python中一个键值映射的数据结构,下面介绍一下字典的操作

常用的python工具介绍

1 minute read

随着软件项目进入“维护模式”,对可读性和编码标准的要求很容易落空(甚至从一开始就没有建立过那些标准)。然而,在代码库中保持一致的代码风格和测试标准能够显著减轻维护的压力,也能确保新的开发者能够快速了解项目的情况,同时能更好地全程保持应用程序的质量。

几个比较常用的笔记优雅的python编程技巧

2 minute read

Python最大的优点之一就是语法简洁,好的代码就像伪代码一样,干净、整洁、一目了然。要写出 Pythonic(优雅的、地道的、整洁的)代码,需要多看多学大牛们写的代码,github 上有很多非常优秀的源代码值得阅读,比如:requests、flask、tornado,下面列举一些常见的Pythonic写法

python垃圾回收

1 minute read

一.垃圾回收机制 Python中的垃圾回收是以引用计数为主,分代收集为辅。引用计数的缺陷是循环引用的问题。 在Python中,如果一个对象的引用数为0,Python虚拟机就会回收这个对象的内存。 ``` #encoding=utf-8 author = ‘kevinlu1010@qq.com’

Back to top ↑

linux

单台服务器最大tcp链接数(转载)

less than 1 minute read

常识一:文件句柄限制 在linux下编写网络服务器程序的朋友肯定都知道每一个tcp连接都要占一个文件描述符,一旦这个文件描述符使用完了,新的连接到来返回给我们的错误是“Socket/File:Can’topen so many files”。 这时你需要明白操作系统对可以打开的最大文件数的限制。

shell脚本中各种括号的作用

1 minute read

一、小括号,圆括号() 单小括号 () 命令组。括号中的命令将会新开一个子shell顺序执行,所以括号中的变量不能够被脚本余下的部分使用。括号中多个命令之间用分号隔开,最后一个命令可以没有分号,各命令和括号之间不必有空格。 命令替换。等同于cmd,shell扫描一遍命令行,...

Mysql删除数据后释放磁盘空间

less than 1 minute read

Mysql在设计的时候有个这样子的逻辑,对于表里面的数据,使用delete命令删除了以后,这部分数据占据的空间并没有真正释放,而是只是标记删除而已。就是说你用select查询不到了,但是这部分数据还在的。等有新的数据插入表的时候,mysql会用新的数据覆盖掉原来的数据占据的存储空间。因此,你会发现mysql的数据...

grep笔记

less than 1 minute read

1. grep简介 grep(global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。Unix的grep家族包括grep、egrep和fgr...

sed笔记

1 minute read

1. Sed简介 sed是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。...

awk笔记

6 minute read

1. awk简介 awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk的处理文本和数据的方式是这样...

Back to top ↑

Python

Pycharm注册

less than 1 minute read

教你如何自己搭建服务器激活Pycharm

Python__str__和__repr__的区别

less than 1 minute read

__str__和__repr__的区别 这是python中两个magic method,很容易让新手迷糊,因为很多时候,二者的实现是一样的,但是这两个函数是用在不同的地方 __str__, 主要是用于展示,str(obj)或者print(obj)的时候调用,返回值一定是一个str对象 __repr__, 是被re...

Python__init__.py

less than 1 minute read

python中的Module是比较重要的概念。常见的情况是,事先写好一个.py文件,在另一个文件中需要import时,将事先写好的.py文件拷贝到当前目录,或者是在sys.path中增加事先写好的.py文件所在的目录,然后import。这样的做法,对于少数文件是可行的,但如果程序数目很多,层级很复杂,就很吃力了。

Python参数传递

less than 1 minute read

Python的函数参数传递到底是传值?还是传引用? 我想,这个标题或许是很多初学者的问题。尤其是对C/C++比较熟悉,刚刚进入python殿堂的朋友们。C/C++的函数参数的传递方式根深蒂固的影响这我们的思维–引用?传值?究竟是那种呢。

Python作用域

less than 1 minute read

Python是静态作用域语言,尽管它自身是一个动态语言。也就是说,在Python中变量的作用域是由它在源代码中的位置决定的,这与C有些相似,但是Python与C在作用域方面的差异还是非常明显的。接下来会谈论Python的作用域规则,在这中间也会说明一下Python与C在作用域方面的不同。 在Python 2.0及...

new()

less than 1 minute read

__new__() 是在新式类中新出现的方法,它作用在构造方法建造实例之前,用于空值如何创建类的实例。可以这么理解,在 Python 中存在于类里面的构造方法 __init__() 负责将类的实例化(其实叫初始化更准确),而在 __init__() 启动之前,__new__() 决定如何创建一个未经初始化的实例以...

装饰器

1 minute read

在Python中,装饰器实现是一种非常方便的功能,其可以看做是decorator模式的一种实现(有兴趣的可以看下装饰器模式,后面本人也会写一边关于这个设计模式的)。 python中有一个原则就是一切皆对象,因此:函数作为一种对象,是可以向普通变量一样做各种操作的。在python中,可以把函数被赋值给其他变量,可以...

Back to top ↑

爬虫

python爬虫入门-05-URL去重

less than 1 minute read

本期我们来聊聊URL去重那些事儿。以前我们曾使用Python的字典来保存抓取过的URL,目的是将重复抓取的URL去除,避免多次抓取同一网页。爬虫会将待抓取的URL放在todo队列中,从抓取到的网页中提取到新的URL,在它们被放入队列之前,首先要确定这些新的URL是否被抓取过,如果之前已经抓取过了,就不再放入队列。

python爬虫入门-04-分布式爬虫

less than 1 minute read

上一篇介绍的通用爬虫架构不同,下面是一个聚焦爬虫的架构图,与前者相比,它不仅要保存网页,还要提取出网页中的指定内容。

python爬虫入门-03-爬虫架构

less than 1 minute read

回顾上一期,我们在介绍了爬虫的基本概念之后,就利用各种工具横冲直撞的完成了一个小爬虫,目的就是猛、糙、快,方便初学者上手,建立信心。对于有一定基础的读者,请不要着急,以后我们会学习主流的开源框架,打造出一个强大专业的爬虫系统!不过在此之前,要继续打好基础,本期我们先介绍爬虫的种类,然后选取最典型的通用网络爬虫,为...

Back to top ↑

tcp

单台服务器最大tcp链接数(转载)

less than 1 minute read

常识一:文件句柄限制 在linux下编写网络服务器程序的朋友肯定都知道每一个tcp连接都要占一个文件描述符,一旦这个文件描述符使用完了,新的连接到来返回给我们的错误是“Socket/File:Can’topen so many files”。 这时你需要明白操作系统对可以打开的最大文件数的限制。

tcp工作原理

less than 1 minute read

看到有人做了一个tcp工作原理的动图,我觉得不错,可以很直观的看到tcp是如何工作的,因此分享过来。

Back to top ↑

ubuntu

Mysql删除数据后释放磁盘空间

less than 1 minute read

Mysql在设计的时候有个这样子的逻辑,对于表里面的数据,使用delete命令删除了以后,这部分数据占据的空间并没有真正释放,而是只是标记删除而已。就是说你用select查询不到了,但是这部分数据还在的。等有新的数据插入表的时候,mysql会用新的数据覆盖掉原来的数据占据的存储空间。因此,你会发现mysql的数据...

Back to top ↑

Pycharm

Pycharm注册

less than 1 minute read

教你如何自己搭建服务器激活Pycharm

Back to top ↑

golang

golang-Struct和Json互转

less than 1 minute read

使用golang做web后端的时候经常遇到需要解析或发送json数据的时候,这篇帖子教你如何操作。

Back to top ↑

mysql

Mysql删除数据后释放磁盘空间

less than 1 minute read

Mysql在设计的时候有个这样子的逻辑,对于表里面的数据,使用delete命令删除了以后,这部分数据占据的空间并没有真正释放,而是只是标记删除而已。就是说你用select查询不到了,但是这部分数据还在的。等有新的数据插入表的时候,mysql会用新的数据覆盖掉原来的数据占据的存储空间。因此,你会发现mysql的数据...

Back to top ↑

算法

SVM实现多个分类的方案

less than 1 minute read

SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。

从一组数字中找出只出现一次的数字

less than 1 minute read

最近被人问到了一个算法问题,题目是这样的 一组数字中只有一个数字出现了一次。其他所有数字都是成对出现的。 请找出这个数字

Back to top ↑

shell

单台服务器最大tcp链接数(转载)

less than 1 minute read

常识一:文件句柄限制 在linux下编写网络服务器程序的朋友肯定都知道每一个tcp连接都要占一个文件描述符,一旦这个文件描述符使用完了,新的连接到来返回给我们的错误是“Socket/File:Can’topen so many files”。 这时你需要明白操作系统对可以打开的最大文件数的限制。

shell脚本中各种括号的作用

1 minute read

一、小括号,圆括号() 单小括号 () 命令组。括号中的命令将会新开一个子shell顺序执行,所以括号中的变量不能够被脚本余下的部分使用。括号中多个命令之间用分号隔开,最后一个命令可以没有分号,各命令和括号之间不必有空格。 命令替换。等同于cmd,shell扫描一遍命令行,...

Back to top ↑

设计模式

单例(Singleton)模式

less than 1 minute read

首先来明确一个问题,那就是在某些情况下,有些对象,我们只需要一个就可以了,比如,一台计算机上可以连好几个打印机,但是这个计算机上的打印程序只能有一个,这里就可以通过单例模式来避免两个打印作业同时输出到打印机中,即在整个的打印过程中我只有一个打印程序的实例。 简单说来,单例模式(也叫单件模式)的作用就是保证在整个应...

Back to top ↑

Singleton

单例(Singleton)模式

less than 1 minute read

首先来明确一个问题,那就是在某些情况下,有些对象,我们只需要一个就可以了,比如,一台计算机上可以连好几个打印机,但是这个计算机上的打印程序只能有一个,这里就可以通过单例模式来避免两个打印作业同时输出到打印机中,即在整个的打印过程中我只有一个打印程序的实例。 简单说来,单例模式(也叫单件模式)的作用就是保证在整个应...

Back to top ↑

Django

Back to top ↑

awk

awk笔记

6 minute read

1. awk简介 awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk的处理文本和数据的方式是这样...

Back to top ↑

sed

sed笔记

1 minute read

1. Sed简介 sed是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。...

Back to top ↑

grep

grep笔记

less than 1 minute read

1. grep简介 grep(global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。Unix的grep家族包括grep、egrep和fgr...

Back to top ↑

三次握手

tcp工作原理

less than 1 minute read

看到有人做了一个tcp工作原理的动图,我觉得不错,可以很直观的看到tcp是如何工作的,因此分享过来。

Back to top ↑

四次挥手

tcp工作原理

less than 1 minute read

看到有人做了一个tcp工作原理的动图,我觉得不错,可以很直观的看到tcp是如何工作的,因此分享过来。

Back to top ↑

vscode

Back to top ↑

json

golang-Struct和Json互转

less than 1 minute read

使用golang做web后端的时候经常遇到需要解析或发送json数据的时候,这篇帖子教你如何操作。

Back to top ↑

go-struct

golang-Struct和Json互转

less than 1 minute read

使用golang做web后端的时候经常遇到需要解析或发送json数据的时候,这篇帖子教你如何操作。

Back to top ↑

面试

从一组数字中找出只出现一次的数字

less than 1 minute read

最近被人问到了一个算法问题,题目是这样的 一组数字中只有一个数字出现了一次。其他所有数字都是成对出现的。 请找出这个数字

Back to top ↑

dva

dva-loading用法

1 minute read

dva-loading是dvajs的一个插件,封装了对loading状态的处理。它提供了对当前异步加载方法的状态(异步加载中状态为 true,异步加载完成状态为 false)的监听和追踪, 可以用来设定ant design中的组件的loading属性

Back to top ↑

dva-loading

dva-loading用法

1 minute read

dva-loading是dvajs的一个插件,封装了对loading状态的处理。它提供了对当前异步加载方法的状态(异步加载中状态为 true,异步加载完成状态为 false)的监听和追踪, 可以用来设定ant design中的组件的loading属性

Back to top ↑

nginx

Back to top ↑

npm

Back to top ↑

前端

Back to top ↑

ganglia

Back to top ↑

socket

单台服务器最大tcp链接数(转载)

less than 1 minute read

常识一:文件句柄限制 在linux下编写网络服务器程序的朋友肯定都知道每一个tcp连接都要占一个文件描述符,一旦这个文件描述符使用完了,新的连接到来返回给我们的错误是“Socket/File:Can’topen so many files”。 这时你需要明白操作系统对可以打开的最大文件数的限制。

Back to top ↑

操作系统

单台服务器最大tcp链接数(转载)

less than 1 minute read

常识一:文件句柄限制 在linux下编写网络服务器程序的朋友肯定都知道每一个tcp连接都要占一个文件描述符,一旦这个文件描述符使用完了,新的连接到来返回给我们的错误是“Socket/File:Can’topen so many files”。 这时你需要明白操作系统对可以打开的最大文件数的限制。

Back to top ↑

机器学习

SVM实现多个分类的方案

less than 1 minute read

SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。

Back to top ↑

网络

Back to top ↑

udp

Back to top ↑

编程技巧

几个比较常用的笔记优雅的python编程技巧

2 minute read

Python最大的优点之一就是语法简洁,好的代码就像伪代码一样,干净、整洁、一目了然。要写出 Pythonic(优雅的、地道的、整洁的)代码,需要多看多学大牛们写的代码,github 上有很多非常优秀的源代码值得阅读,比如:requests、flask、tornado,下面列举一些常见的Pythonic写法

Back to top ↑

gunicorn

gunicorn简介

1 minute read

WSGI协议: Web框架致力于如何生成HTML代码,而Web服务器用于处理和响应HTTP请求。Web框架和Web服务器之间的通信,需要一套双方都遵守的接口协议。WSGI协议就是用来统一这两者的接口的。

Back to top ↑

uwsgi

gunicorn简介

1 minute read

WSGI协议: Web框架致力于如何生成HTML代码,而Web服务器用于处理和响应HTTP请求。Web框架和Web服务器之间的通信,需要一套双方都遵守的接口协议。WSGI协议就是用来统一这两者的接口的。

Back to top ↑