当前位置：首页 > 公众号精选 > AI科技大本营

Python 多进程、协程异步抓取英雄联盟皮肤并保存在本地

时间：2021-11-09 13:51:16

关键字：异步进程

手机看文章

扫描二维码
随时随地手机看文章

[导读]作者|俊欣来源 |关于数据分析与可视化就在11月7日晚间，《英雄联盟》S11赛季全球总决赛决斗，在冰岛拉开“帷幕”，同时面向全球直播。在经过了5个小时的鏖战，EDG战队最终以3:2战胜来自韩国LCK赛区的DK战队，获得俱乐部队史上首座全球总决赛冠军。夺冠的消息瞬间引爆全网，包括小...

作者 | 俊欣

来源 | 关于数据分析与可视化

就在11月7日晚间，《英雄联盟》S11赛季全球总决赛决斗，在冰岛拉开“帷幕”，同时面向全球直播。在经过了5个小时的鏖战，EDG战队最终以3:2战胜来自韩国LCK赛区的DK战队，获得俱乐部队史上首座全球总决赛冠军。

夺冠的消息瞬间引爆全网，包括小编的朋友圈也被刷屏了，今天小编就写一篇与之相关的文章，通过单线程、多进程以及异步协程等方法来抓取英雄联盟的皮肤并下载。

传统数据抓取 VS 高性能数据抓取

传统的数据抓取都是运行在单线程上的，先用获取到目标页面中最大的页数，然后循环抓取每个单页数据并进行解析，按照这样的思路，会有大量的时间都浪费在等待请求传回的数据上面，如果在等待第一个页面返回的数据时去请求第二个页面，就能有效地提高效率，下面我们就通过单线程、多进程以及异步协程的方式分别来简单的实践一下。

页面分析

目标网站：https://lol.qq.com/data/info-heros.shtml

官网的界面如图所示，上面的每一张小图代表每一个英雄，我们知道每一个英雄有多个皮肤，我们的目标就是爬取每一个英雄的所有皮肤，并且保存在本地；打开一个英雄显示他所有的皮肤，如下图所示，

我们打开浏览器里面的开发者工具，查看皮肤数据的接口，

可以看到皮肤的信息是通过

json的数据格式来进行传输的，并且存放皮肤的url也是有一定规律的，和英雄的ID相挂钩url1 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/1.js' 

url2 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/2.js' 

url3 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/3.js'

url4 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/4.js'

因此我们也可以自己来构造这个url格式'https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js'.format(i)


	单线程方案

我们先来看一下单线程的方案def get_page():

page_urls = []

for i in range(1, 10):

url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js'.format(i)

page_urls.append(url)

return page_urls



# 获取各英雄皮肤的链接

def get_img_urls():

results_list = []

page_urls = get_page()

for page_url in page_urls:

res = requests.get(page_url, headers=headers)

result = res.content.decode('utf-8')

result_dict = json.loads(result)

skins_list = result_dict["skins"]



for skin in skins_list:

hero_dict = {}

hero_dict['name'] = skin["heroName"]

hero_dict['skin_name'] = skin["name"]

if skin["mainImg"] == '':

continue

hero_dict['imgUrl'] = skin["mainImg"]

results_list.append(hero_dict)

time.sleep(2)

return results_list



# 将各种皮肤保存到本地

def save_image(index, img_url):

path = "skin/" img_url["name"]

if not os.path.exists(path):

os.makedirs(path)

response = requests.get(img_url['imgUrl'], headers = headers).content

with open('./skin/' img_url['name'] '/' img_url['skin_name']   str(index) '.jpg', 'wb') as f:

f.write(response)

上面的代码分别代表的获取各英雄每个皮肤的链接，然后再将各英雄的皮肤图片保存到本地，通过一个主函数将上面的步骤都串联到一起def main():

img_urls = get_img_urls()

print("总共有{}个网页".format(len(img_urls)))

for index, img_url in enumerate(img_urls):

print("目前正处于第{}个".format(img_urls.index(img_url)))

save_image(index, img_url)



print("Done")

爬取这几个网页然后保存到本地的时间总共是需要43秒的时间，接下来我们来看一下多进程的爬取所需要的时间。

	多进程的抓取方案

首先来简单的介绍一下进程，进程是系统进行资源分配和调度的最小单位，每一个进程都有自己独立的地址空间，不同进程之间的内存空间不共享，进程与进程之间的通信是由操作系统来传递的，因此通讯效率低，切换开销大。这里我们简单的用多进程来抓取一下各个英雄的皮肤def main():

img_urls = get_img_urls()

print("总共有{}个网页".format(len(img_urls)))

pools = multiprocessing.Pool(len(img_urls))

for index_1, img_url in enumerate(img_urls):

print("目前正处于第{}个".format(img_urls.index(img_url)))

pools.apply_async(save_image, args=(index_1, img_url, ))



pools.close() # 关闭进程池（pool），使其不在接受新的任务。

pools.join() # 主进程阻塞等待子进程的退出， join方法要在close或terminate之后使用

print("Done")

整体下来需要的时间是29秒，比上面的单线程要快出许多。

	异步协程的抓取方案

与异步相对立的则是同步，顾名思义，同步具体指的各个任务并不是独立进行的，而是按照顺序交替进行下去的，在一个任务进行完之后得到结果才进行下一个的任务。而异步则是各个任务可以独立的运行，一个任务的运行不受另外一个任务的影响。而这里提到的协程，英文叫做Coroutine，也称为是微线程，是一种用户态的轻量级线程，拥有自己的寄存器上下文和栈，在进行调度切换时，将寄存器上下文和栈保存到其他地方，在切回来的时候恢复先前保存的寄存器上下文和栈。我们可以利用协程来实现异步操作，比如在发出请求的时候，需要等一段时间才能得到返回的结果，但其实这个等待的时候程序完全可以干其他许多的事情，在响应返回之后再切换回来继续处理，这样可以充分利用 CPU 和其他资源。我们这里用协程来抓取一下各个英雄的皮肤async def save_image(index, img_url):

path = "skin/" img_url["name"]

if not os.path.exists(path):

os.makedirs(path)

response = requests.get(img_url['imgUrl'], headers = headers).content

with open('./skin/' img_url['name'] '/' img_url['skin_name']   str(index) '.jpg', 'wb') as f:

f.write(response)



def main():

loop = asyncio.get_event_loop()

img_urls = get_img_urls()

print("总共有{}个网页".format(len(img_urls)))

tasks_list = [save_image(index, img_url) for index, img_url in enumerate(img_urls)]

try:

loop.run_until_complete(asyncio.wait(tasks_list))

finally:

loop.close()



print("Done")

一整个跑下来，大概是需要33秒的时间，也是比单线程的43秒要快出很多以上便是用单线程、多进程以及异步协程的方式来优化爬虫脚本的性能，感兴趣的读者可以自己照着上面的教程与步骤自己去敲一遍代码，感谢阅读。


                        
                欲知详情，请下载word文档 下载文档
            
            
                                                 
            
                                        本站声明： 本文章由作者或相关机构授权发布，目的在于传递更多信息，并不代表本站赞同其观点，本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者，如若文章内容侵犯您的权益，请及时联系本站删除。
                        
                
            

            

            







    
        
            
                
                换一批
            
            延伸阅读
        
                
                                                    
                            [产业新闻]
                                蔡司加大对华投资，国内首次购地自建项目在苏州工业园区正式启动
                            
                            
                                苏州2022年10月19日 /美通社/ -- 2022年10月18日，全球光学及光电技术领军者蔡司在苏州工业园区奠基启动"凤栖"工程建设，这是蔡司在国内首次购地自建项目，标志着蔡司在中国本土化进程的进...
                                关键字：
								                                    光学
                                                                    显微镜
                                                                    进程
                                                                    中国制造
                                							
                            
                        
                                                                        
                            [快讯]
                                蔡司在国内首次购地自建项目在苏州启动
                            
                            
                                蔡司在苏州工业园区奠基启动"凤栖"工程建设，这是蔡司在国内首次购地自建项目，标志着蔡司在中国本土化进程的进一步深化与扩展。 "凤栖"工程建成后，蔡司苏州将成为蔡司在中国更高规格的研发与制造的重要据点，为其工业质量、研究显...
                                关键字：
								                                    显微镜
                                                                    进程
                                							
                            
                        
                                                                        
                            [产业新闻]
                                「这空间很中国」重构理想空间 恒洁推进国民美好生活品质升级
                            
                            
                                广东佛山2022年10月19日 /美通社/ -- 空间是人居生活的基础单元，承载着生存与活动的最基本功能。而对于理想空间的解构意义却在物理性容器之外，体现出人们对于空间和生活深层关系的思考，同时也塑造着人与空间的新型连接...
                                关键字：
								                                    温度
                                                                    BSP
                                                                    智能化
                                                                    进程
                                							
                            
                        
                                                                        
                            [产业新闻]
                                雀巢发布雀巢咖啡2030计划
                            
                            
                                助力再生农业转型、温室气体减排并改善农民生计   北京2022年10月13日 /美通社/ -- 雀巢咖啡作为雀巢集团最大且广受全球消费者喜爱的咖啡品牌，近期推出了使咖啡种植更加可持续的延展计划：雀巢咖啡2030...
                                关键字：
								                                    可持续发展
                                                                    BSP
                                                                    路线图
                                                                    进程
                                							
                            
                        
                                                                        
                            [美通社全球TMT]
                                Exyte收购废气净化系统专家Airgard
                            
                            
                                 （全球TMT2022年10月12日讯）Exyte已完成对美国废气净化技术专家Airgard Inc.的收购。Airgard成立于1988年，总部位于加利福尼亚州的Milpitas，是 "湿式" 洗涤器开发和制造领域的领...
                                关键字：
								                                    TE
                                                                    AIR
                                                                    进程
                                                                    半导体行业
                                							
                            
                        
                                                                        
                            [产业新闻]
                                TUV莱茵受邀出席大连市质量认证"云上圆桌会"
                            
                            
                                                       大连2022年9月30日 /美通社/ -- 近日，国际独立第三方检测、检验和认证机构德国莱茵TUV（简称"TUV莱茵"）大连分公司总经理张孝宽受邀出席了由...
                                关键字：
								                                    能源管理
                                                                    ISO
                                                                    控制
                                                                    进程
                                							
                            
                        
                                                                        
                            [产业新闻]
                                恒洁卫浴公共空间改造计划开启，助力打造城市品质生活
                            
                            
                                佛山2022年9月23日 /美通社/ -- 近日，由恒洁卫浴集团有限公司（以下简称：恒洁）发起的"这空间很中国"公共空间改造计划正式拉开序幕，联合权威党媒及新华书店，以重庆、北京等城市为起点，陆续在全...
                                关键字：
								                                    中国制造
                                                                    进程
                                                                    防护
                                                                    色环
                                							
                            
                        
                                                                        
                            [美通社全球TMT]
                                InEight宣布新的软件创新
                            
                            
                                 （全球TMT2022年9月22日讯）建筑项目管理软件领域企业InEight Inc.宣布了最新的软件创新，包括范围、设计和资源管理方面的新流程标准化，以及新的进展跟踪功能和创建基准验证型进程预估和时间表的能力。该更新还...
                                关键字：
								                                    软件
                                                                    进程
                                                                    应用程序
                                                                    模板
                                							
                            
                        
                                                                        
                            [产业新闻]
                                InEight专注于软件创新的标准化和基准更新
                            
                            
                                                       InEight专注于软件创新的标准化和基准更新，从而提高了效率，增加了项目信心  InEight建筑项目管理平台的最新发展引入了新的设计管理和基准实践，提高了各个项目之间的一...
                                关键字：
								                                    软件
                                                                    应用程序
                                                                    进程
                                                                    移动应用
                                							
                            
                        
                                                                        
                            [产业新闻]
                                GANT衬衫先锋承袭经典，暨沈阳K11全新门店正式启幕
                            
                            
                                "衬"出新我，再续传奇  沈阳2022年9月8日 /美通社/ -- 9月6日，GANT沈阳K11全新门店正式启幕。此次GANT以新店开幕为契机，回顾品牌标志性衬衫单品的诞生与历史，并演绎经历沉淀后的迭...
                                关键字：
								                                    GAN
                                                                    行业标准
                                                                    进程
                                                                    微信
                                							
                            
                        
                                        

        
                                                
                        [美通社全球TMT]
                            
                                电通宣布过渡到新的全球集成领导架构
                            
                        

                             电通集团（Dentsu Group Inc.）宣布过渡到一个新的全球集成领导架构，旨在加速企业转型并促进卓越运营。电通集团将从电通日本网络（DJN）和电通国际（DI）这两个业务部门转变为全球"一个管理团队"架构，在日本...

                            关键字：
								                                    集成
                                                                    GROUP
                                                                    进程
                                                                    网络
                                							
                        
                    
                                                                
                        [产业新闻]
                            
                                众合云科旗下51社保发布《中国企业社保白皮书2022》
                            
                        

                            积极拥抱企业社保合规   深圳2022年8月29日 /美通社/ -- 8月26日，由众合云科旗下51社保举办的主题为"三位一体，重构未来"的第十届中国企业社保高峰论坛暨《中国企业社保白皮书》十周年盛典...

                            关键字：
								                                    数字化
                                                                    离散
                                                                    进程
                                                                    API
                                							
                        
                    
                                                                
                        [美通社全球TMT]
                            
                                游戏大数据分析服务商数数科技完成1亿元C+轮融资
                            
                        

                             （全球TMT2022年8月22日讯）游戏大数据分析服务商数数科技宣布正式完成1亿元C+轮融资。本轮融资的投资方为GGV纪源资本，资金将用于人才队伍建设、产品研发、国际化进程等方面。这是数数科技近一年半内的第三次融资，总...

                            关键字：
								                                    大数据分析
                                                                    新加坡
                                                                    进程
                                                                    MT
                                							
                        
                    
                                                                
                        [产业新闻]
                            
                                唯链助力内蒙古翁牛特旗农产品质量追溯平台二期上线
                            
                        

                            全面加速推进当地农畜企业数字化进程  内蒙古赤峰2022年8月16日 /美通社/ -- 8月12日，内蒙古赤峰市翁牛特旗市场监督管理局农产品溯源体系建设项目动员大会在当地隆重召开。出席本次大会的有翁牛特旗市场监督管理局局...

                            关键字：
								                                    BSP
                                                                    小米
                                                                    数字化
                                                                    进程
                                							
                        
                    
                                                                
                        [产业新闻]
                            
                                壳牌与申能成立合资公司，将在中国共同建设加氢站网络
                            
                        

                            上海2022年7月29日 /美通社/ -- 壳牌（中国）有限公司与申能（集团）有限公司（以下简称"申能集团"）所属上海申能能创能源发展有限公司签署协议，成立合资公司"上海申能壳牌新能源有限公...

                            关键字：
								                                    网络
                                                                    燃料电池汽车
                                                                    新能源
                                                                    进程
                                							
                        
                    
                                                                
                        [产业新闻]
                            
                                世界脑健康日：重磅发布我国三大脑健康相关精准医学专题报告
                            
                        

                            北京2022年7月23日 /美通社/ -- 为更好地推动精准医学的科学技术研究、成果转化和产业发展，在国家卫健委、科技部和中华医学会的指导下，上海医学创新发展基金会和清华大学医院管理研究院等单位，组织16位各领域院士牵头...

                            关键字：
								                                    数字化
                                                                    BSP
                                                                    人工智能
                                                                    进程
                                							
                        
                    
                                                                
                        [产业新闻]
                            
                                CEiC投资企业服务创企Peakflo，推动财务流程数字化进程
                            
                        

                            北京2022年7月13日 /美通社/ -- CE Innovation Capital ("CEiC") 近日宣布投资企业财务数字化解决方案供应商Peakflo种子轮融资。本次融资额410万美元，其他...

                            关键字：
								                                    数字化
                                                                    进程
                                                                    IC
                                                                    CE
                                							
                        
                    
                                                                
                        [产业新闻]
                            
                                顺应全球可持续发展浪潮 西门子嵌饮机以科技构筑永续未来
                            
                        

                            南京2022年7月6日 /美通社/ -- 近年来，可持续发展的话题热度不断升温，各国不断出台相关政策与法规，推进全球可持续发展进程。而中国更早在第七十五届联合国大会中表明力争2030年前实现碳达峰，2060年前...

                            关键字：
								                                    可持续发展
                                                                    西门子
                                                                    进程
                                                                    BSP
                                							
                        
                    
                                                                
                        [产业新闻]
                            
                                "数造新机，智采未来"百度爱采购新工业发展论坛，完整议程全解析
                            
                        

                            北京2022年7月1日 /美通社/ -- 7月7日-10日，拥有近30年积淀的专业工业展会"2022厦门工业博览会"即将开幕。爱采购作为百度旗下企业一站式采销平台，与厦门工博会达成战略合作，共同搭建集...

                            关键字：
								                                    数字化
                                                                    进程
                                                                    互联网
                                                                    供应链
                                							
                        
                    
                                                                
                        [美通社全球TMT]
                            
                                百度爱采购将在2022厦门工业博览会期间举办新工业发展论坛
                            
                        

                             （全球TMT2022年7月1日讯）7月7日-10日，拥有近30年积淀的专业工业展会"2022厦门工业博览会"即将开幕。7日下午2点，百度爱采购将在展会现场举办"数造新机，智采未来"爱采购新工业发展论坛。论坛将携手政府、...

                            关键字：
								                                    数字化
                                                                    进程
                                                                    MT


        
                                        
                    
                        
                                            
                    AI科技大本营

                    
                        111 篇文章
                        
                                                            关注 
                                                    
					
                    发布文章
                    
                
                        
                            
            
            
                                                    
                    
                    

                
            
            
                
                
                                    
                    
                            
            
            
                    

    
        厂商专栏
    
    
        
                            
                    
                        
                        厂商动态
                        5902篇文章
                    
                
                            
                    
                        
                        贸泽电子
                        983篇文章
                    
                
                            
                    
                        
                        意法半导体
                        931篇文章
                    
                
                            
                    
                        
                        ADI
                        880篇文章
                    
                
                            
                    
                        
                        英飞凌
                        668篇文章
                    
                
                            
                    
                        
                        TrendForce集邦咨询
                        459篇文章
                    
                
                    
    


    
        热门文章
    
    
        









                            
                    国产GPU第一股摩尔线程终于来了：12月5日上市 市值537亿
                
                            
                    1.2亿天价罚单！全球第三大设备商因台积电2nm泄密案被起诉
                
                            
                    科技巨头集体预警：内存价格将大幅上涨！
                
                            
                    基于PLC的焊点检测隔离机的电控设计
                
                            
                    盘点GET 和 POST请求的本质区别
                
                            
                    CAN收发器
                
                            
                    CAN的数据帧
                
                            
                    荷兰安世仍未向中国供应晶圆 全球汽车产线几周内或将停产
                
                            
                    终止一切对华采购！美国汽车巨头要求数千供应商“断华”！
                
                            
                    AI 史诗三幕剧：架构师搭台、协调者唱戏、哨兵守夜——Gartner 2026 十大战略技术趋势全景解码
                
                    
    

            
            
            
            
            
            
            
            
    编辑精选
    
    


    更多
        论坛活动
    
    
        
                            
                                            
                        
                                        “变现”指南：上传资料获三重红包，亲测有效！
                    
                
                            
                                        得捷芯闻解码研习站第四期：网络安全芯片，让您的应用系统无懈可击
                    
                
                            
                                        FPGA供电应用遇挑战？MPS高性能FPGA供电解决方案帮你破局
                    
                
                            
                                        得捷芯闻解码视频研习站第五期：打造更安全、更智能、更舒适、高续航的驾乘体验
                    
                
                    
    



    更多
        论坛热帖
        
            
                十大技术帖
                十大生活帖
            
        
        
            
                                    【每周分享】程序员真的逃不过35岁被裁的坎吗？ 
                                    【每周分享】公司已经裁掉我了，还在继续安排大量工作给我，这合适吗？ 
                                    【每周分享】努力、运气、选择，哪一个更重要？ 
                                    CW32L012固件库发现两处问题 
                                    CW32L011休眠模式 偶发无法唤醒 
                                    gd32f4 中断影响adc采样怎么解决 
                                    GD32F303定时器捕获频率出现问题 
                                    用PMOS做开关的电路，开关按下PMOS导通，电路为啥不行呢 
                                    APM32F407备份SRAM VBAT测试避坑指南：从误判到精准检测 
                                    极海的APM32F425和APM32F427到底有什么区别？ 
                            
            
                                    去地里捡的胡萝卜 
                                    【每周分享】食品安全咋就这么严重 
                                    终于满签 
                                    带饭来公司也麻烦 
                                    充完电不拔充电器？是在拿命“豪赌”！ 
                                    宁德时代全员涨薪，工资真高 
                                    同事午休打呼噜的声音是真大 
                                    为什么上班以后越来越胖 
                                    【每周分享】放下，才能回归幸福 
                                    【每周分享】还有三十天，又一年结束了 
                            
        
    


    
        技术子站
    
    
        
    


    更多
        资料下载
    
        
        
                            组合导航开源代码
                            ad620中文手册
                            智谱开源AutoGLM
                            	SM4-SM3-SM2 FPGA实现源码
                            0V-10V便携式直流可调电源
                            低成本蓝牙扫码支付盒项目Low-Cost Bluetooth QR Code
                            Super Dial 电机旋钮屏（ESP32-S3-V2）项目
                            2.5G 开源光猫（2.5G Open-Source Optical Modem）深度项目
                            ESP32-S3 智能扬声器（ESP32-S3 Speakers）项目
                            ABBacs510 1.5kw主电路原理图
                    
    



    更多
        技术学院
    
    
        
                            ESD静电放电的产生原理详解

                            论垃圾分类与边缘计算的关系解析

                            一文深度解读二极管限幅电路和钳位电路

                            干货分享！单片机应用系统的可靠性设计

                            二极管单向导通的原因之深入理解单向导电特性

                            PCB设计中叠层设计详解

                            一文教你开关电源PCB布线设计技巧

                            怎样安全传输存储用户密码？