&

如何優(yōu)化 Python 爬蟲的速度？單線程 urllib 感覺過于慢了，達不到數(shù)據(jù)量的要求（十萬級頁面）。有哪些可以提高爬取效率的方法？

程序提速這個問題其實解決方案就擺在那里，要么通過并發(fā)來提高單位時間內處理的工作量，要么從程序本身去找提效點，比如爬取的數(shù)據(jù)用gzip傳輸、提高處理數(shù)據(jù)的速度等。

我會分別從幾種常見的并發(fā)方法去做同一件事情，從而比較處理效率。

簡單版本爬蟲

我們先來一個簡單的爬蟲，看看單線程處理會花費多少時間？

import time

import requests

from datetime import datetime

def fetch(url):

r = requests.get(url)

print(r.text)

start = datetime.now()

t1 = time.time()

for i in range(100):

fetch('http://httpbin.org/get')

print('requests版爬蟲耗時：', time.time() - t1)

# requests版爬蟲耗時：54.86306357383728

我們用一個爬蟲的測試網(wǎng)站，測試爬取100次，用時是54.86秒。

多線程版本爬蟲

下面我們將上面的程序改為多線程版本：

import threading

import time

import requests

def fetch():

r = requests.get('http://httpbin.org/get')

print(r.text)

t1 = time.time()

t_list = []

for i in range(100):

t = threading.Thread(target=fetch, args=())

t_list.append(t)

t.start()

for t in t_list:

t.join()

print("多線程版爬蟲耗時：", time.time() - t1)

# 多線程版爬蟲耗時：0.8038511276245117

我們可以看到，用上多線程之后，速度提高了68倍。其實用這種方式的話，由于我們并發(fā)操作，所以跑100次跟跑一次的時間基本是一致的。這只是一個簡單的例子，實際情況中我們不可能無限制地增加線程數(shù)。

多進程版本爬蟲

除了多線程之外，我們還可以使用多進程來提高爬蟲速度：

import requests

import time

import multiprocessing

from multiprocessing import Pool

MAX_WORKER_NUM = multiprocessing.cpu_count()

def fetch():

r = requests.get('http://httpbin.org/get')

print(r.text)

if __name__ == '__main__':

t1 = time.time()

p = Pool(MAX_WORKER_NUM)

for i in range(100):

p.apply_async(fetch, args=())

p.close()

p.join()

print('多進程爬蟲耗時：', time.time() - t1)

多進程爬蟲耗時： 7.9846765995025635

我們可以看到多進程處理的時間是多線程的10倍，比單線程版本快7倍。

協(xié)程版本爬蟲

我們將程序改為使用 aiohttp 來實現(xiàn)，看看效率如何：

import aiohttp

import asyncio

import time

async def fetch(client):

async with client.get('http://httpbin.org/get') as resp:

assert resp.status == 200

return await resp.text()

async def main():

async with aiohttp.ClientSession() as client:

html = await fetch(client)

print(html)

loop = asyncio.get_event_loop()

tasks = []

for i in range(100):

task = loop.create_task(main())

tasks.append(task)

t1 = time.time()

loop.run_until_complete(main())

print("aiohttp版爬蟲耗時：", time.time() - t1)

aiohttp版爬蟲耗時： 0.6133313179016113

我們可以看到使用這種方式實現(xiàn)，比單線程版本快90倍，比多線程還快。

結論

通過上面的程序對比，我們可以看到，對于多任務爬蟲來說，多線程、多進程、協(xié)程這幾種方式處理效率的排序為：aiohttp > 多線程 > 多進程。因此，對于簡單的爬蟲任務，如果想要提高效率，可以考慮使用協(xié)程。但是同時也要注意，這里只是簡單的示例，實際運用中，我們一般會用線程池、進程池、協(xié)程池去操作。

這就是問題的答案了嗎？

對于一個嚴謹?shù)某绦騿T來說，當然不是，實際上還有一些優(yōu)化的庫，例如grequests，可以從請求上解決并發(fā)問題。實際的處理過程中，肯定還有其他的優(yōu)化點，這里只是從最常見的幾種并發(fā)方式去比較而已，應付簡單爬蟲還是可以的，其他的方式歡迎大家在評論區(qū)留言探討。

(責任編輯：代碼如詩)

亚洲国产AⅤ无码精品观看_国产福利课聊中文字幕高清_国产好大对白露脸高潮_色欲国产AV午夜福利

知乎熱門：如何提高爬蟲速度？

亚洲国产AⅤ无码精品观看_国产福利课聊中文字幕高清_国产好大对白露脸高潮_色欲国产AV午夜福利

知乎熱門：如何提高爬蟲速度？

知乎熱門：如何提高爬蟲速度？