python爬虫基础之urllib的使用-猿码集

Python爬虫基础之urllib的使用

1. urllib概述

在Python中，urllib是一个由一系列模块组成的库，用于处理URL。通过urllib库，我们可以实现从网页上获取数据的功能，例如爬取网页内容、下载文件等。该库提供了多个模块，分别用于不同的操作，包括urllib.request、urllib.parse、urllib.error等。

2. urllib.request模块

2.1 发送请求

urllib.request模块提供了一个用于发送HTTP请求的基本类——urllib.request.Request，通过构造该类的实例，我们可以发送GET请求或者POST请求。

下面是一个发送GET请求的示例：

import urllib.request
url = 'http://example.com'
req = urllib.request.Request(url)
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')
print(html)

以上代码中，首先构造一个Request实例，传入URL参数，然后调用urlopen()方法发送请求，并接收响应。最后将响应的内容读取并解码为UTF-8编码的字符串。

如果需要发送POST请求，可以在构造Request实例时传入data参数，示例如下：

import urllib.request
import urllib.parse
url = 'http://example.com'
data = urllib.parse.urlencode({'key1': 'value1', 'key2': 'value2'}).encode('utf-8')
req = urllib.request.Request(url, data=data, method='POST')
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')
print(html)

以上代码中，首先使用urlencode()方法将字典类型的参数转化为URL编码的字符串，然后通过encode()方法将字符串转化为二进制数据，并传入Request实例的data参数中。

2.2 设置请求头

urllib.request模块还提供了add_header()方法，用于设置请求头。

下面是一个示例：

import urllib.request
url = 'http://example.com'
req = urllib.request.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3')
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')
print(html)

以上代码中，调用add_header()方法设置User-Agent请求头，模拟浏览器的请求。

3. urllib.parse模块

3.1 URL解析

urllib.parse模块提供了一些函数，用于解析URL或构造URL。

下面是一个示例：

import urllib.parse
url = 'http://example.com/?key1=value1&key2=value2'
parsed_url = urllib.parse.urlparse(url)
print(parsed_url)

以上代码中，调用urlparse()方法解析URL，返回一个ParseResult对象。通过该对象的属性，我们可以获取URL的各个部分，例如scheme、netloc、query等。

3.2 URL构造

如果需要构造URL，可以使用urlencode()方法将一个字典类型的参数转化为URL编码的字符串。

下面是一个示例：

import urllib.parse
params = {'key1': 'value1', 'key2': 'value2'}
encoded_params = urllib.parse.urlencode(params)
url = 'http://example.com/?' + encoded_params
print(url)

以上代码中，通过urlencode()方法将params字典转化为URL编码的字符串，然后构造完整的URL。

4. urllib.error模块

urllib.error模块用于处理urllib库相关的异常。

以下是一个示例：

import urllib.request
import urllib.error
try:
    response = urllib.request.urlopen('http://www.example.com/notexist')
except urllib.error.HTTPError as e:
    print('HTTPError:', e.code, e.reason)
except urllib.error.URLError as e:
    print('URLError:', e.reason)
else:
    html = response.read().decode('utf-8')
    print(html)

以上代码中，使用urlopen()方法打开一个不存在的URL，如果遇到HTTPError异常，则打印HTTP错误码和原因；如果遇到URLError异常，则打印错误原因；否则，读取响应内容并打印。

5. 总结

本文介绍了Python爬虫基础之urllib库的使用。通过urllib库，我们可以发送HTTP请求，处理URL相关的操作。urllib.request模块用于发送请求，设置请求头；urllib.parse模块用于URL解析和构造；urllib.error模块用于处理异常。熟练掌握urllib库的使用，对于编写简单的爬虫程序非常有帮助。

通过本文的学习，我们了解了urllib库的基本用法，并通过示例代码展示了如何发送GET请求、POST请求，设置请求头，解析和构造URL，处理异常等。希望本文对你学习和掌握Python爬虫基础知识有所帮助。

注意：在实际开发中，为了避免给网站服务器带来过大的负载，我们应该使用合适的爬虫爬取数据，并遵守Robots协议和网站的使用规则。

python爬虫基础之urllib的使用

1. urllib概述

2. urllib.request模块

2.1 发送请求

2.2 设置请求头

3. urllib.parse模块

3.1 URL解析

3.2 URL构造

4. urllib.error模块

5. 总结

相关阅读

后端开发标签

Python热门

Python更新