python线程池类函数 python中线程池

python 多线程爬取网站数据利用线程池

"""

成都创新互联于2013年成立，是专业互联网技术服务公司，拥有项目成都网站制作、网站设计网站策划，项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命，1280元攀枝花做网站,已为上家服务,为攀枝花各地企业和个人服务,联系电话:028-86922220

@author: wangxingchun

多线程（线程池）

下载数据

"""

import requests

import csv

from concurrent.futures import ThreadPoolExecutor as tp

#创建一个csv文件，注意创建writer对象"csv.writer()"

f = open('xinfadi.csv','w',encoding='utf8')

csvwrite = csv.writer(f)

#如果写入txt文件，不需要创建writer对象。

# f = open('xinfadidata.txt','w',encoding='utf8')

#创建一个函数，以页码做为参数

def down(n_page):

url = ''

data = {'count': 428225,'current': n_page,'limit': 20}

resp = requests.post(url,data=data)

datas =resp.json()

#通过分析数据嵌套情况，获取数据。此处可在网页开发工具json数据中查看分析。

for i in range(len(datas['list'])):

name = datas['list'][i]['prodName']

highPrice = datas['list'][i]['highPrice']

lowPrice = datas['list'][i]['lowPrice']

pubDate = datas['list'][i]['pubDate']

place = datas['list'][i]['place']

csvwrite.writerow((name,highPrice,lowPrice,pubDate,place))#writerow要求写入的是可迭代对象

# f.writelines(f'{name},{highPrice},{lowPrice},{pubDate},{place} ')

resp.close()

if __name__ == '__main__':

with tp(50) as t: #创建线程池，

for n in range(1,101): #遍历数据网页

t.submit(down,n) #提交给线程池，进行多线程下载

print(f'共{n}页数据下载完毕!')

f.close()

python 线程池的使用

最近在做一个爬虫相关的项目，单线程的整站爬虫，耗时真的不是一般的巨大，运行一次也是心累，，，所以，要想实现整站爬虫，多线程是不可避免的，那么python多线程又应该怎样实现呢？这里主要要几个问题（关于python多线程的GIL问题就不再说了，网上太多了）。

一、既然多线程可以缩短程序运行时间，那么，是不是线程数量越多越好呢？

显然，并不是，每一个线程的从生成到消亡也是需要时间和资源的，太多的线程会占用过多的系统资源（内存开销，cpu开销），而且生成太多的线程时间也是可观的，很可能会得不偿失，这里给出一个最佳线程数量的计算方式：

最佳线程数的获取：

1、通过用户慢慢递增来进行性能压测，观察QPS（即每秒的响应请求数，也即是最大吞吐能力。），响应时间

2、根据公式计算:服务器端最佳线程数量=((线程等待时间+线程cpu时间)/线程cpu时间) * cpu数量

3、单用户压测，查看CPU的消耗，然后直接乘以百分比，再进行压测，一般这个值的附近应该就是最佳线程数量。

二、为什么要使用线程池？

对于任务数量不断增加的程序，每有一个任务就生成一个线程，最终会导致线程数量的失控，例如，整站爬虫，假设初始只有一个链接a，那么，这个时候只启动一个线程，运行之后，得到这个链接对应页面上的b，c，d，，，等等新的链接，作为新任务，这个时候，就要为这些新的链接生成新的线程，线程数量暴涨。在之后的运行中，线程数量还会不停的增加，完全无法控制。所以，对于任务数量不端增加的程序，固定线程数量的线程池是必要的。

三、如何使用线程池

过去使用threadpool模块，现在一般使用concurrent.futures模块，这个模块是python3中自带的模块，但是，python2.7以上版本也可以安装使用，具体使用方式如下：

注意到：

concurrent.futures.ThreadPoolExecutor，在提交任务的时候，有两种方式，一种是submit（）函数，另一种是map（）函数，两者的主要区别在于：

python多线程并行计算通过向线程池ThreadPoolExecutor提交任务的实现方法

Python的线程池可以有效地控制系统中并发线程的数量。

当程序中需要创建许多生存期较短的线程执行运算任务时，首先考虑使用线程池。线程池任务启动时会创建出最大线程数参数 max_workers 指定数量的空闲线程，程序只要将执行函数提交给线程池，线程池就会启动一个空闲的线程来执行它。当该函数执行结束后，该线程并不会死亡，而是再次返回到线程池中变成空闲状态，等待执行下一个函数。配合使用 with 关键字实现任务队列完成后自动关闭线程池释放资源。

python如何实现线程池

#这个类是线程类，用来在主程序中调用生成一个线程。其实线程池就是线程的集合地，

#能够解决有效统一的管理线程，基本就达到了线程池的目的；

#这一段代码是我的爬虫程序中的一部分，希望对你有用。

class Spider(Thread):

def __init__(self, todo_list):

super().__init__()

self.setDaemon(True)

self.todo_list = todo_list

self.stat = IDLE

def is_idle(self):

return self.stat == IDLE

def run(self):

while True:

url = self.todo_list.get()

# 开始线程工作

#这个函数就是主函数了，

def main(max_threads):

########这里和上一个函数就是核心代码了。

# 创建 N 个线程，并启动

print('Spawn spiders')

spiders = [Spider(todo_list) for i in range(max_threads)]

for spd in spiders:

spd.start()

#python主运行代码：

if __name__ == '__main__':

main(max_threads)

只能给你这么多解释了，如果想弄懂，还是要去看看基础知识的。

另外可以查一下有没有封装好的三方库。

当前文章：python线程池类函数 python中线程池
浏览地址：http://myzitong.com/article/dopcocs.html

python线程池类函数 python中线程池

python 多线程爬取网站数据利用线程池

python 线程池的使用

python多线程并行计算通过向线程池ThreadPoolExecutor提交任务的实现方法

python如何实现线程池

其他资讯