续上，Python爬虫在 fiddler 中调用本地 JS 代码文件-猿码集

1. 简介

在爬虫过程中，有时候我们希望能够实现一些复杂的数据处理功能，比如使用本地的JavaScript代码来处理爬取的数据。幸运的是，Python的爬虫库提供了很多方便的工具来实现这么操作。在本文中，我们将学习如何在Python爬虫中使用本地JS代码文件，并通过Fiddler进行调用。

2. Fiddler简介

Fiddler是一款常用的用于调试网络请求的工具。它可以捕获和修改HTTP请求和响应，并提供了强大的调试和分析功能。我们可以利用Fiddler的"AutoResponder"功能来将请求转发到本地的JS代码文件进行处理。

3. 准备工作

在开始之前，我们需要安装好以下工具：

- Python3

- Fiddler

3.1 创建Python虚拟环境

为了避免项目依赖冲突，我们可以先创建一个Python虚拟环境。打开终端，运行以下命令：

$ python3 -m venv myenv $ source myenv/bin/activate

3.2 安装必要的库

在虚拟环境中运行以下命令来安装必需的Python库：

$ pip install requests

4. 编写本地JS代码文件

我们将使用JavaScript来处理爬取的数据。首先，我们需要创建一个本地的JS代码文件，比如`process_data.js`，然后在其中编写我们的数据处理逻辑。


// process_data.js
function processData(data) {
  // 在这里编写数据处理逻辑
  var processedData = data;  // 这里只是示例，实际情况中根据需求进行处理
  return processedData;
}

我们可以定义一个名为`processData`的函数来处理我们的数据。这个函数接收一个参数`data`，表示爬取的数据。在这个函数中，我们可以根据需要对数据进行处理，并返回处理后的数据。

4.1 在Fiddler中设置规则

打开Fiddler，并确保"AutoResponder"选项卡处于打开状态。然后，点击右侧的"Add Rule"按钮，在"Rule Editor"对话框中配置规则。

在"Rule Editor"对话框中，我们需要配置"Matching"和"Action"两个部分。首先，在"Matching"部分，我们需要定义一个条件来匹配我们要处理的请求。比如，我们可以使用正则表达式来匹配特定的URL。

在"Action"部分，我们需要选择"Execute a Script"选项，并选择我们之前创建的JavaScript文件。

4.2 编写Python代码

下面我们来编写Python代码，来实现爬虫并调用本地的JS代码文件。

首先，我们需要导入必要的库：


import requests

然后，我们需要爬取数据并调用我们的本地JS代码：


# 爬取数据
response = requests.get('https://example.com')
data = response.text
# 调用本地JS代码处理数据
import os
js_file_path = os.path.join(os.getcwd(), 'process_data.js')
task_js = open(js_file_path).read()
processed_data = execjs.compile(task_js).call('processData', data)
# 输出处理后的数据
print(processed_data)

上述代码中，我们首先使用requests库来发送HTTP GET请求，并获取返回的HTML数据。然后，我们使用execjs库（需要安装）来加载我们的本地JS代码文件，并调用其中的`processData`函数来处理数据。

最后，我们可以输出处理后的数据。

5. 运行和调试

为了运行我们的代码，我们需要执行以下命令：

$ python my_script.py

如果一切正常，你应该能够看到处理后的数据输出在终端中。

如果需要调试代码，我们可以使用Fiddler来观察HTTP请求和响应的数据，并通过修改Fiddler的规则来调整我们的本地JS代码。

5.1 修改Fiddler规则

在Fiddler的"AutoResponder"选项卡中，找到我们之前创建的规则，并点击右侧的"Edit..."按钮。在"Rule Editor"对话框中，我们可以修改匹配条件和本地JS文件。

5.2 调试Python代码

如果我们想要调试Python代码，我们可以使用IDE或者增加一些日志输出来帮助我们定位问题。

6. 总结

在本文中，我们学习了如何在Python爬虫中使用本地JS代码文件，通过Fiddler进行调用。我们首先创建了一个本地JS代码文件，然后在Fiddler中配置了规则来调用这个文件。最后，我们通过Python代码发送HTTP请求并获取数据，然后调用本地JS代码对数据进行处理。通过这种方法，我们可以实现更复杂的数据处理功能，并且能够方便地调试和修改代码。

续上，Python爬虫在 fiddler 中调用本地 JS 代码文件