当前位置:首页 > 公众号精选 > AI科技大本营
[导读]作者|俊欣来源 |关于数据分析与可视化就在11月7日晚间,《英雄联盟》S11赛季全球总决赛决斗,在冰岛拉开“帷幕”,同时面向全球直播。在经过了5个小时的鏖战,EDG战队最终以3:2战胜来自韩国LCK赛区的DK战队,获得俱乐部队史上首座全球总决赛冠军。夺冠的消息瞬间引爆全网,包括小...


作者 | 俊欣


来源 | 关于数据分析与可视化


就在11月7日晚间,《英雄联盟》S11赛季全球总决赛决斗,在冰岛拉开“帷幕”,同时面向全球直播。在经过了5个小时的鏖战,EDG战队最终以3:2战胜来自韩国LCK赛区的DK战队,获得俱乐部队史上首座全球总决赛冠军。


夺冠的消息瞬间引爆全网,包括小编的朋友圈也被刷屏了,今天小编就写一篇与之相关的文章,通过单线程进程以及异步协程等方法来抓取英雄联盟的皮肤并下载。

传统数据抓取 VS 高性能数据抓取

传统的数据抓取都是运行在单线程上的,先用获取到目标页面中最大的页数,然后循环抓取每个单页数据并进行解析,按照这样的思路,会有大量的时间都浪费在等待请求传回的数据上面,如果在等待第一个页面返回的数据时去请求第二个页面,就能有效地提高效率,下面我们就通过单线程多进程以及异步协程的方式分别来简单的实践一下。

页面分析

目标网站:https://lol.qq.com/data/info-heros.shtml官网的界面如图所示,上面的每一张小图代表每一个英雄,我们知道每一个英雄有多个皮肤,我们的目标就是爬取每一个英雄的所有皮肤,并且保存在本地;打开一个英雄显示他所有的皮肤,如下图所示,我们打开浏览器里面的开发者工具,查看皮肤数据的接口,可以看到皮肤的信息是通过json的数据格式来进行传输的,并且存放皮肤的url也是有一定规律的,和英雄的ID相挂钩url1 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/1.js'
url2 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/2.js'
url3 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/3.js'
url4 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/4.js'
因此我们也可以自己来构造这个url格式'https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js'.format(i)

单线程方案

我们先来看一下单线程的方案def get_page():
page_urls = []
for i in range(1, 10):
url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js'.format(i)
page_urls.append(url)
return page_urls

# 获取各英雄皮肤的链接
def get_img_urls():
results_list = []
page_urls = get_page()
for page_url in page_urls:
res = requests.get(page_url, headers=headers)
result = res.content.decode('utf-8')
result_dict = json.loads(result)
skins_list = result_dict["skins"]

for skin in skins_list:
hero_dict = {}
hero_dict['name'] = skin["heroName"]
hero_dict['skin_name'] = skin["name"]
if skin["mainImg"] == '':
continue
hero_dict['imgUrl'] = skin["mainImg"]
results_list.append(hero_dict)
time.sleep(2)
return results_list

# 将各种皮肤保存到本地
def save_image(index, img_url):
path = "skin/" img_url["name"]
if not os.path.exists(path):
os.makedirs(path)
response = requests.get(img_url['imgUrl'], headers = headers).content
with open('./skin/' img_url['name'] '/' img_url['skin_name']   str(index) '.jpg', 'wb') as f:
f.write(response)
上面的代码分别代表的获取各英雄每个皮肤的链接,然后再将各英雄的皮肤图片保存到本地,通过一个主函数将上面的步骤都串联到一起def main():
img_urls = get_img_urls()
print("总共有{}个网页".format(len(img_urls)))
for index, img_url in enumerate(img_urls):
print("目前正处于第{}个".format(img_urls.index(img_url)))
save_image(index, img_url)

print("Done")
爬取这几个网页然后保存到本地的时间总共是需要43秒的时间,接下来我们来看一下多进程的爬取所需要的时间。

多进程的抓取方案

首先来简单的介绍一下进程,进程是系统进行资源分配和调度的最小单位,每一个进程都有自己独立的地址空间,不同进程之间的内存空间不共享,进程与进程之间的通信是由操作系统来传递的,因此通讯效率低,切换开销大。这里我们简单的用多进程来抓取一下各个英雄的皮肤def main():
img_urls = get_img_urls()
print("总共有{}个网页".format(len(img_urls)))
pools = multiprocessing.Pool(len(img_urls))
for index_1, img_url in enumerate(img_urls):
print("目前正处于第{}个".format(img_urls.index(img_url)))
pools.apply_async(save_image, args=(index_1, img_url, ))

pools.close() # 关闭进程池(pool),使其不在接受新的任务。
pools.join() # 主进程阻塞等待子进程的退出, join方法要在close或terminate之后使用
print("Done")
整体下来需要的时间是29秒,比上面的单线程要快出许多。

异步协程的抓取方案

与异步相对立的则是同步,顾名思义,同步具体指的各个任务并不是独立进行的,而是按照顺序交替进行下去的,在一个任务进行完之后得到结果才进行下一个的任务。而异步则是各个任务可以独立的运行,一个任务的运行不受另外一个任务的影响。而这里提到的协程,英文叫做Coroutine,也称为是微线程,是一种用户态的轻量级线程,拥有自己的寄存器上下文和栈,在进行调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候恢复先前保存的寄存器上下文和栈。我们可以利用协程来实现异步操作,比如在发出请求的时候,需要等一段时间才能得到返回的结果,但其实这个等待的时候程序完全可以干其他许多的事情,在响应返回之后再切换回来继续处理,这样可以充分利用 CPU 和其他资源。我们这里用协程来抓取一下各个英雄的皮肤async def save_image(index, img_url):
path = "skin/" img_url["name"]
if not os.path.exists(path):
os.makedirs(path)
response = requests.get(img_url['imgUrl'], headers = headers).content
with open('./skin/' img_url['name'] '/' img_url['skin_name']   str(index) '.jpg', 'wb') as f:
f.write(response)

def main():
loop = asyncio.get_event_loop()
img_urls = get_img_urls()
print("总共有{}个网页".format(len(img_urls)))
tasks_list = [save_image(index, img_url) for index, img_url in enumerate(img_urls)]
try:
loop.run_until_complete(asyncio.wait(tasks_list))
finally:
loop.close()

print("Done")
一整个跑下来,大概是需要33秒的时间,也是比单线程的43秒要快出很多以上便是用单线程、多进程以及异步协程的方式来优化爬虫脚本的性能,感兴趣的读者可以自己照着上面的教程与步骤自己去敲一遍代码,感谢阅读。





本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

苏州2022年10月19日 /美通社/ -- 2022年10月18日,全球光学及光电技术领军者蔡司在苏州工业园区奠基启动"凤栖"工程建设,这是蔡司在国内首次购地自建项目,标志着蔡司在中国本土化进程的进...

关键字: 光学 显微镜 进程 中国制造

蔡司在苏州工业园区奠基启动"凤栖"工程建设,这是蔡司在国内首次购地自建项目,标志着蔡司在中国本土化进程的进一步深化与扩展。 "凤栖"工程建成后,蔡司苏州将成为蔡司在中国更高规格的研发与制造的重要据点,为其工业质量、研究显...

关键字: 显微镜 进程

广东佛山2022年10月19日 /美通社/ -- 空间是人居生活的基础单元,承载着生存与活动的最基本功能。而对于理想空间的解构意义却在物理性容器之外,体现出人们对于空间和生活深层关系的思考,同时也塑造着人与空间的新型连接...

关键字: 温度 BSP 智能化 进程

助力再生农业转型、温室气体减排并改善农民生计  北京2022年10月13日 /美通社/ -- 雀巢咖啡作为雀巢集团最大且广受全球消费者喜爱的咖啡品牌,近期推出了使咖啡种植更加可持续的延展计划:雀巢咖啡2030...

关键字: 可持续发展 BSP 路线图 进程

(全球TMT2022年10月12日讯)Exyte已完成对美国废气净化技术专家Airgard Inc.的收购。Airgard成立于1988年,总部位于加利福尼亚州的Milpitas,是 "湿式" 洗涤器开发和制造领域的领...

关键字: TE AIR 进程 半导体行业

大连2022年9月30日 /美通社/ -- 近日,国际独立第三方检测、检验和认证机构德国莱茵TUV(简称"TUV莱茵")大连分公司总经理张孝宽受邀出席了由...

关键字: 能源管理 ISO 控制 进程

佛山2022年9月23日 /美通社/ -- 近日,由恒洁卫浴集团有限公司(以下简称:恒洁)发起的"这空间很中国"公共空间改造计划正式拉开序幕,联合权威党媒及新华书店,以重庆、北京等城市为起点,陆续在全...

关键字: 中国制造 进程 防护 色环

(全球TMT2022年9月22日讯)建筑项目管理软件领域企业InEight Inc.宣布了最新的软件创新,包括范围、设计和资源管理方面的新流程标准化,以及新的进展跟踪功能和创建基准验证型进程预估和时间表的能力。该更新还...

关键字: 软件 进程 应用程序 模板

InEight专注于软件创新的标准化和基准更新,从而提高了效率,增加了项目信心 InEight建筑项目管理平台的最新发展引入了新的设计管理和基准实践,提高了各个项目之间的一...

关键字: 软件 应用程序 进程 移动应用

"衬"出新我,再续传奇 沈阳2022年9月8日 /美通社/ -- 9月6日,GANT沈阳K11全新门店正式启幕。此次GANT以新店开幕为契机,回顾品牌标志性衬衫单品的诞生与历史,并演绎经历沉淀后的迭...

关键字: GAN 行业标准 进程 微信

AI科技大本营

111 篇文章

关注

发布文章

编辑精选

技术子站

关闭