当前位置:首页 > 公众号精选 > AI科技大本营
[导读]作者|俊欣来源|关于数据分析与可视化今天小编就来讲讲selenium,我们大致会讲这些内容selenium简介与安装页面元素的定位浏览器的控制鼠标的控制键盘的控制设置元素的等待获取cookies调用JavaScriptselenium进阶selenium的简介与安装seleniu...

作者 | 俊欣

来源 | 关于数据分析与可视化

今天小编就来讲讲selenium,我们大致会讲这些内容

  • selenium简介与安装
  • 页面元素的定位
  • 浏览器的控制
  • 鼠标的控制
  • 键盘的控制
  • 设置元素的等待
  • 获取cookies
  • 调用JavaScript
  • selenium进阶

selenium的简介与安装

selenium是最广泛使用的开源Web UI自动化测试套件之一,它所支持的语言包括C JavaPerlPHPPythonRuby,在数据抓取方面也是一把利器,能够解决大部分网页的反爬措施,当然它也并非是万能的,一个比较明显的一点就在于是它速度比较慢,如果每天数据采集的量并不是很高,倒是可以使用这个框架。

那么说到安装,可以直接使用pip在安装pip install selenium
与此同时呢,我们还需要安装一个浏览器驱动,不同的浏览器需要安装不同的驱动,这边小编主要推荐的以下这两个
  • Firefox浏览器驱动: geckodriver
  • Chrome浏览器驱动: chromedriver
小编平常使用的是selenium chromedriver比较多,所以这里就以Chrome浏览器为示例,由于要涉及到chromedriver的版本需要和浏览器的版本一致,因此我们先来确认一下浏览器的版本是多少?看下图我们在“关于Chrome”当中找到浏览器的版本,然后下载对应版本的chromedriver,当然也要对应自己电脑的操作系统

页面元素的定位

在谈到页面元素的定位时,小编默认读者朋友具备了最最基本的前端知识,例如HTMLCSS

ID标签的定位

HTML当中,ID属性是唯一标识一个元素的属性,因此在selenium当中,通过ID来进行元素的定位也作为首选,我们以百度首页为例,搜索框的HTML代码如下,其ID为“kw”,而“百度一下”这个按钮的ID为“su”,我们用Python脚本通过ID的标签来进行元素的定位driver.find_element_by_id("kw")
driver.find_element_by_id("su")

NAME标签的定位

HTML当中,Name属性和ID属性的功能基本相同,只是Name属性并不是唯一的,如果遇到没有ID标签的时候,我们可以考虑通过Name标签来进行定位,代码如下driver.find_element_by_name("wd")

Xpath定位

使用Xpath方式来定位几乎涵盖了页面上的任意元素,那什么是Xpath呢?Xpath是一种在XMLHTML文档中查找信息的语言,当然通过Xpath路径来定位元素的时候也是分绝对路径和相对路径。绝对路径是以单号/来表示,相对路径是以//来表示,而涉及到Xpath路径的编写,小编这里偷个懒,直接选择复制/粘贴的方式,例如针对下面的HTML代码
"en">

    "UTF-8">
    Test


"loginForm">
    "username" type="text" />
    "password" type="password" />
    "continue" type="submit" value="Login" />
    "continue" type="button" value="Clear" />



我们可以这么来做,打开浏览器的开发者工具,鼠标移到我们选中的元素,然后右击检查,具体看下图我们还是以百度首页为例,看一下如何通过Xpath来进行页面元素的定位,代码如下driver.find_element_by_xpath('//*[@id="kw"]')

className标签定位

我们也可以基于class属性来定位元素,尤其是当我们看到有多个并列的元素如list表单,class用的都是共用同一个,如:driver.find_element_by_class_name("classname")
这个时候,我们就可以通过class属性来定位元素,该方法返回的是一个list列表,而当我们想要定位列表当中的第n个元素时,则可以这样来安排driver.find_elements_by_class_name("classname")[n]
需要注意的是,这里使用的是find_elements_by_class_name()方法而不是find_element_by_class_name()方法,这里我们还是通过百度首页的例子,通过className标签来定位搜索框这个元素driver.find_element_by_class_name('s_ipt')

CssSelector()方法定位

其实在Selenium官网当中是更加推荐CssSelector()方法来进行页面元素的定位的,原因在于相比较于Xpath定位速度更快,Css定位分为四类:ID值、Class属性、TagName值等等,我们依次来看
  • ID方式来定位
大概有两种方式,一种是在ID值前面添加TagName的值,另外一种则是不加,代码如下driver.find_element_by_css_selector("#id_value")  # 不添加前面的`TagName`值
driver.find_element_by_css_selector("tag_name.class_value")  # 不添加前面的`TagName`值
当然有时候这个TagName的值非常的冗长,中间可能还有空格,那么这当中的空格就需要用点“.”来替换driver.find_element_by_css_selector("tag_name.class_value1.calss_value2.class_value3")  # 不添加前面的`TagName`值
我们仍然以百度首页的搜索框为例,它的HTML代码如下要是用CssSelector.class()方式来实现元素的定位的话,Python代码该这样来实现,和上面Xpath()的方法一样,可以稍微偷点懒,通过复制/粘贴的方式从开发者工具当中来获取元素的位置代码如下driver.find_element_by_css_selector('#kw')

linkText()方式来定位

这个方法直接通过链接上面的文字来定位元素,案例如下通过linkText()方法来定位“地图”这个元素,代码如下driver.find_element_by_link_text("地图").click()

浏览器的控制

修改浏览器窗口的大小

我们可以通过使用set_window_size()这个方法来修改浏览器窗口的大小,代码如下# 修改浏览器的大小
driver.set_window_size(500, 900)
同时还有maxmize_window()方法是用来实现浏览器全屏显示,代码如下# 全屏显示
driver.maximize_window()

浏览器的前进与后退

前进与后退用到的方法分别是forward()back(),代码如下# 前进与后退
driver.forward()
driver.back()

浏览器的刷新

刷新用到的方法是refresh(),代码如下# 刷新页面
driver.refresh()
除了上面这些,webdriver的常见操作还有
  • 关闭浏览器:get()
  • 清除文本:clear()
  • 单击元素:click()
  • 提交表单:submit()
  • 模拟输入内容:send_keys()
我们可以尝试着用上面提到的一些方法来写段程序from selenium import webdriver
from time import sleep

driver = webdriver.Chrome(executable_path="chromedriver.exe")
driver.get("https://www.baidu.com")
sleep(3)
driver.maximize_window()
sleep(1)
driver.find_element_by_xpath('//*[@id="s-top-loginbtn"]').click()
sleep(3)
driver.find_element_by_xpath('//*[@id="TANGRAM__PSP_11__userName"]').send_keys('12121212')
sleep(1)
driver.find_element_by_xpath('//*[@id="TANGRAM__PSP_11__password"]').send_keys('testtest')
sleep(2)
driver.refresh()
sleep(3)
driver.quit()
output

鼠标的控制

鼠标的控制都是封装在ActionChains类当中,常见的有以下几种引入action_chains类
from selenium.webdriver.common.action_chains import ActionChains
# 右击
ActionChains(driver).context_click(element).perform()
# 双击
ActionChains(driver).double_click(element).perform()
# 拖放
ActionChains(driver).drag_and_drop(Start, End).perform()
# 悬停
ActionChains(driver).move_to_element(Above).perform()
# 按下
ActionChains(driver).click_and_hold(leftclick).perform()
# 执行指定的操作

键盘的控制

webdriver中的Keys()类,提供了几乎所有按键的方法,常用的如下# 删除键
driver.find_element_by_id('xxx').send_keys(Keys.BACK_SPACE)
# 空格键
driver.find_element_by_id('xxx').send_keys(Keys.SPACE)
# 回车键
driver.find_element_by_id('xxx').send_keys(Keys.ENTER)
# Ctrl   A 全选内容
driver.find_element_by_id('xxx').send_keys(Keys.CONTROL, 'a')
# Ctrl   C/V 复制/粘贴内容
driver.find_element_by_id('xxx').send_keys(Keys.CONTROL, 'c')
driver.find_element_by_id('xxx').send_keys(Keys.CONTROL, 'v')
其他的一些键盘操作
  • 向上箭头:Keys.ARROW_UP
  • 向下箭头:Keys.ARROW_DOWN
  • 向左/向右箭头:Keys.ARROW_LEFT/Keys.ARROW_RIGHT
  • Shift键:Keys.SHIFT
  • F1键:Keys.F1

元素的等待

有显示等待和隐式等待两种

显示等待

显示等待指的是设置一个超时时间,每隔一段时间去查看一下该元素是否存在,如果存在则执行后面的内容,要是超过了最长的等待时间,则抛出异常(TimeoutException),需要用到的是WebDriverWait()方法,同时配合untilnot until方法WebDriverWait(driver, timeout, poll_frequency=0.5, ignored_exceptions=None)
其中的参数:
  • timeout: 最长超时时间,默认以秒为单位
  • poll_frequency: 检测的时间间隔,默认是0.5s
  • ignored_exceptions: 指定忽略的异常,默认忽略的有NoSuchElementException这个异常
我们来看下面的案例driver = webdriver.Chrome()
driver.get("http://somedomain/url_that_delays_loading")
try:    
    element = WebDriverWait(driver, 10).until(           
        EC.presence_of_element_located((By.ID, "myDynamicElement")))
finally:    
    driver.quit()
上面的代码最多等待10秒,超时后就抛出异常,但是假设在等了3秒之后就找到了这个元素,那么也就不会多等下剩下的7秒钟时间,而是继续执行后续的代码

隐式等待

主要使用的是implicitly_wait()来实现browser = webdriver.Chrome(path)
# 隐式等待3秒
browser.implicitly_wait(3)

获取Cookie

Cookie是用来识别用户身份的关键,我们通常也是通过selenium先模拟登录网页获取Cookie,然后再通过requests携带Cookie来发送请求。webdriver提供了cookies的几种操作,我们挑选几个常用的来说明
  • get_cookies():以字典的形式返回当前会话中可见的cookie信息
  • get_cookies(name): 返回cookie字典中指定的的cookie信息
  • add_cookie(cookie_dict): 将cookie添加到当前会话中
下面看一个简单的示例代码driver=webdriver.Chrome(executable_path="chromedriver.exe")
driver.get(url=url)
time.sleep(1)

cookie_list=driver.get_cookies()
cookies =";".join([item["name""="   item["value"]   "" for item in cookie_list])
session=requests.session()

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36',
    'cookie': cookies
}

response=session.get(url=url,headers=headers)
soup=BeautifulSoup(response.text,'lxml')

调用JavaScript

webdriver当中可以使用execut_script()方法来实现JavaScript的执行,下面我们来看一个简单的例子from selenium import webdriver
import time
bro=webdriver.Chrome(executable_path='./chromedriver')
bro.get("https://www.baidu.com")

# 执行js代码
bro.execute_script('alert(10)')
time.sleep(3)
bro.close()
除此之外,我们还可以通过selenium执行JavaScript来实现屏幕上下滚动from selenium import webdriver
bro=webdriver.Chrome(executable_path='./chromedriver')
bro.get("https://www.baidu.com")
# 执行js代码
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

selenium进阶

selenium启动的浏览器,会非常容易的被检测出来,通常可以通过window.navigator.webdriver的值来查看,如果是true则说明是使用了selenium模拟浏览器,如果是undefined则通常会被认为是正常的浏览器。那么我们似乎可以执行下面这段代码来强行更改window.navigator.webdriver最后返回的值driver.execute_script(
    'Object.defineProperties(navigator,{webdriver:{get:()=>false}})'
)
当然这种方法也有一定的缺陷,毕竟这段代码是在网页已经加载完毕之后才运行的,此时网页自身的JavaScript程序已经通过读取window.navigator.webdriver知道你使用的是模拟浏览器了。所以我们有两种办法来解决这个缺陷。
  • 在Chrome当中添加实验性功能参数
代码如下from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions

option = ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-automation'])
driver=Chrome(options=option)

  • 调用chrome当中的开发工具协议的命令
核心思想就是让Chrome浏览器在打开页面,还没有运行网页自带的JavaScript代码时,先来执行我们给定的代码,通过execute_cdp_cmd()方法,driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source""""
        Object.defineProperty(navigator, 'webdriver', {
            get: () => undefined
        })
    "
""
})
当然为了更好隐藏指纹特征,我们可以将上面两种方法想结合from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option('useAutomationExtension', False)
driver = webdriver.Chrome(options=options, executable_path='./chromedriver')
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source""""
    Object.defineProperty(navigator, 'webdriver', {
      get: () => undefined
    })
  "
""
})
driver.get(url)
最后的最后,我们也可以通过运行stealth.min.js文件来实现隐藏selenium模拟浏览器的特征,这个文件之前是给puppeteer用的,使得其隐藏浏览器的指纹特征,而让Python使用时,需要先导入这份JS文件import time
from selenium.webdriver import Chrome

option = webdriver.ChromeOptions()
option.add_argument("--headless")

# 无头浏览器需要添加user-agent来隐藏特征
option.add_argument('user-agent=.....')
driver = Chrome(options=option)
driver.implicitly_wait(5)

with open('stealth.min.js') as f:
    js = f.read()

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source": js
})

driver.get(url)

资讯程序员敲诈老板,或面临37年监禁

资讯
Meta新语音模型可支持128种语言交流

资讯全球首个活体机器人,能生娃

专访低代码平台产品的使用者都是谁?


分享

点收藏

点点赞

点在看

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

(全球TMT2023年8月4日讯)CSDN、《新程序员》在去年ChatGPT横空出世之后,发起了一份围绕开发者现状、人工智能和物联网、云原生、数据库、操作系统、芯片、开源的深度调查问卷,此问卷也融合了各个领域对生成式A...

关键字: 开发者 人工智能 操作系统 PYTHON

本文转自公众号“CSDN”,ID:CSDNnews)作者 | Serdar Yegulalp 译者 | 王艳妮,责编 | 屠敏C语言五十年来一直是软件开发的一种主力语言。以下是它在如今的2019年与C,Java,C#,G...

关键字: 编程语言 PYTHON GO NET

(全球TMT2021年12月8日讯)亚马逊云科技宣布,无人驾驶汽车科技领导者Aurora选择亚马逊云科技作为其机器学习训练和云上模拟工作负载的首选云提供商。Aurora 使用亚马逊云科技成熟的基础设施和无与伦比的功能组...

关键字: 亚马逊 无人驾驶汽车 DRIVER 机器学习

随着人工智能的热度越来越高,Python这个词我们听到的越来越多,伴随着Python这个单词一起涌入我们视线的还有很多句子:人生苦短,我用Python;Python-人工智能第一语言等等这样的句

关键字: 人工智能 PYTHON 计算机 编译器

截至2018年7月24日起,谷歌浏览器已经将所有非HTTPS网站标记为“不安全”。这就是HTTPS比以往更重要的原因!如果您的网站还在继续使用HTTP协议的话可尽快升级为HTTPS。为什么说HT

关键字: HTTP协议 PS 浏览器 CHROME

近日,Python 官方发布了 2019 年 Python 开发者调查结果。该调查由 Python 软件基金会和 JetBrains 在 2019 年 11 月进行,来自 150 多个国家/地区的 2

关键字: Linux PYTHON 开发者 DJANGO

来源:机器之心 参考链接:https://news.ycombinator.com/item?id=23219641 这是一个内部运行 Python 的开源键盘,可根据个人需求定制键盘映射。从此以后,「穷苦玩家」也能在...

关键字: 编写 键盘 PYTHON GITHUB

随着 Python 的停滞不前,一个新的热门竞争对手出现了。 不要误解。Python 的受欢迎程度,仍然得到计算机科学家、数据科学家和人工智能专家的坚实支持。但是,如果你曾经和这些人一起共进晚餐,你也

关键字: PYTHON JULIA 程序员 测试

近日,外媒SlashGear曝光了一张谷歌Pixelbook Go的真机图片。曝光的图片显示,谷歌Pixelbook Go并没有采用铰链设计,而是传统笔记本的开合设计。笔记本的A面采用拼接风格设

关键字: GO PIXEL HD CHROME

TensorFlow 2.2.0 正式发布了,该版本终止了对 Python 2 的支持。现在,新的 TensorFlow Docker 镜像版本仅提供 Python 3。主要特性和改进· 将字符串张量

关键字: PYTHON TENSORFLOW MODEL TC
关闭