Python爬虫常用库的安装及其环境配置

2020-02-15 23:01:16

字体：大中小

来源：转载

供稿：网友

Python常用库的安装

urllib、re 这两个库是Python的内置库，直接使用方法import导入即可。

在python中输入如下代码：

import urllibimport urllib.requestresponse=urllib.request.urlopen("http://www.baidu.com")print(response)

返回结果为HTTPResponse的对象：

<http.client.HTTPResponse object at 0x000001929C7525F8>

正则表达式模块

import re

该库为python自带的库，直接运行不报错，证明该库正确安装。

requests这个库是请求的库

我们需要使用执行文件pip3来进行安装。文件处于C:/Python36/Scripts下，我们可以先将此路径设为环境变量。在命令行中输入pip3 install requests进行安装。安装完成后进行验证

>>> import requests>>> requests.get('http://www.baidu.com')<Response [200]>

selenium实际上是用来浏览器的一个库

做爬虫时可能会碰到使用JS渲染的网页，使用requests来请求时，可能无法正常获取内容，我们使用selenium可以驱动浏览器获得渲染后的页面。也是使用pip3 install selenium安装。进行验证

>>> import selenium>>> from selenium import webdriver>>> driver = webdriver.Chrome()DevTools listening on ws://127.0.0.1:60980/devtools/browser/7c2cf211-1a8e-41ea-8e4a-c97356c98910>>> driver.get('http://www.baidu.com')

上述命令可以直接打开chrome浏览器，并且打开百度。但是，在这之前我们必须安装一个chromedriver，并且安装googlchrome浏览器，可自行去官网下载。当我们安装完毕后再运行这些测试代码可能依旧会出现一闪而退的情况，那么问题出在，chrome和chromdriver的版本不兼容，可以在官网下载chrome更高的版本，或者chromedriver更低的版本，但是只要都是最高版本就没问题。
如何查看本机的chrome的版本，具体方法如下：

chromedriver的下载地址如下：
http://chromedriver.storage.googleapis.com/index.html
chromedriver解压后放到Python或者其他配置了环境变量的目录下。

phantomjs是一个无界面浏览器，在后台运行

可在官网自行下载。并且需要将phantomjs.exe 的所在目录设为环境变量。测试代码

>>> from selenium import webdriver>>> driver = webdriver.PhantomJS()>>> driver.get('http://www.baidu.com')>>> driver.page_source'<!DOCTYPE html><!--STATUS OK--><html><head>/n

lxml

使用pip3 install lxml安装

beautifulsoup是一个网络解析库，依赖于lxml库

上一篇：python编程使用协程并发的优缺点

下一篇：idea创建springMVC框架和配置小文件的教程图解