Python爬虫实战糗事百科实例
1. 准备工作
1.1 安装Python
在开始之前,确保你的电脑已经安装了Python。可以从Python官方网站 https://www.python.org 下载并安装最新版本的Python。
1.2 安装必要的库
在进行爬虫实战之前,我们需要安装一些必要的库。打开命令行窗口,运行以下命令来安装这些库:
pip install requests
pip install beautifulsoup4
requests 库用于发送HTTP请求和接收响应。
beautifulsoup4 库用于解析HTML网页内容。
2. 爬取糗事百科
2.1 发送请求
首先,我们需要通过发送HTTP请求来获取糗事百科的网页内容。下面是发送请求的代码:
import requests
url = 'http://www.qiushibaike.com/hot/page/1'
response = requests.get(url)
在上面的代码中,我们使用 requests.get() 函数发送GET请求,并将响应保存在 response 变量中。
2.2 解析网页内容
接下来,我们需要使用 beautifulsoup4 对网页内容进行解析。下面是解析网页内容的代码:
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
上面的代码将通过 BeautifulSoup 将网页内容解析为一个可操作的Python对象。
2.3 提取数据
我们可以通过查看糗事百科网页的HTML结构,找到我们需要提取的数据所在的标签。下面是提取数据的代码:
articles = soup.find_all('div', class_='article')
for article in articles:
content = article.find('div', class_='content').text.strip()
author = article.find('h2').text.strip()
print('作者: {}'.format(author))
print('内容: {}'.format(content))
print('---')
在上面的代码中,我们使用 soup.find_all() 函数找到所有的糗事,然后逐个提取作者和内容,并打印出来。
3. 运行爬虫
现在,我们已经完成了爬取糗事百科的代码,可以运行它并看到结果了。下面是完整的代码:
import requests
from bs4 import BeautifulSoup
url = 'http://www.qiushibaike.com/hot/page/1'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
articles = soup.find_all('div', class_='article')
for article in articles:
content = article.find('div', class_='content').text.strip()
author = article.find('h2').text.strip()
print('作者: {}'.format(author))
print('内容: {}'.format(content))
print('---')
运行上面的代码,你将获得最热门的糗事百科段子的作者和内容。
4. 结语
这篇文章展示了如何使用Python爬虫实战糗事百科的实例。我们通过发送HTTP请求和使用beautifulsoup4库解析HTML网页内容,提取了糗事百科段子的作者和内容。
爬虫是一个强大的工具,可以用于抓取互联网上的各种数据。然而,请注意爬虫的合法性和道德性,不要在未经允许的情况下滥用爬虫。