C# 爬虫简单教程

1. 爬虫概述

爬虫是一种自动化程序，用于在互联网上浏览并获取信息。使用爬虫可以从网页中提取所需的数据，然后进行处理和分析。本教程将介绍如何使用C#编写爬虫程序。

1.1 C#爬虫框架

要编写C#爬虫程序，我们可以使用一些成熟的爬虫框架，如HtmlAgilityPack和AngleSharp。这些框架提供了便利的API和功能，使得获取和解析网页变得简单。

// 引入HtmlAgilityPack命名空间 using HtmlAgilityPack; // 引入AngleSharp命名空间 using AngleSharp;

2. 发送HTTP请求

爬虫程序首先需要发送HTTP请求以获取网页的内容。我们可以使用C#内置的HttpClient类来发送请求。以下是一个简单的示例：

using System.Net.Http;
class Program
{
    static async Task Main(string[] args)
    {
        HttpClient httpClient = new HttpClient();
        HttpResponseMessage response = await httpClient.GetAsync("https://www.example.com");
        string content = await response.Content.ReadAsStringAsync();
        Console.WriteLine(content);
    }
}

在上面的代码中，我们创建了一个HttpClient对象，并使用GetAsync方法发送GET请求。然后，我们使用ReadAsStringAsync方法将网页的内容作为字符串读取出来，并进行输出。

3. 解析网页

获取网页内容后，我们需要解析网页以提取所需的数据。下面是使用HtmlAgilityPack和AngleSharp解析网页的示例：

3.1 使用HtmlAgilityPack

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(content);
HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes("//h1");
foreach (HtmlNode node in nodes)
{
    Console.WriteLine(node.InnerText);
}

在上面的代码中，我们首先创建一个HtmlDocument对象，并使用LoadHtml方法将网页内容加载进去。然后，我们使用SelectNodes方法选择所有的

元素，并通过遍历输出其InnerText。

3.2 使用AngleSharp

var config = Configuration.Default;
var context = BrowsingContext.New(config);
var document = await context.OpenAsync(req => req.Content(content));
var headings = document.QuerySelectorAll("h1");
foreach (var heading in headings)
{
    Console.WriteLine(heading.TextContent);
}

上面的代码中，我们首先创建一个BrowsingContext对象，并使用OpenAsync方法打开网页。然后，我们使用QuerySelectorAll方法选择所有的h1元素，并通过遍历输出其TextContent。

4. 存储数据

获取和解析网页后，我们可以将所需的数据进行存储和处理。在C#中，我们可以使用各种方式进行数据存储，如存储到数据库、写入文件或者输出到控制台等。以下是一个简单的示例：

List<string> dataList = new List<string>();
foreach (HtmlNode node in nodes)
{
    dataList.Add(node.InnerText);
}
foreach (var heading in headings)
{
    dataList.Add(heading.TextContent);
}
foreach (string data in dataList)
{
    Console.WriteLine(data);
}

在上面的代码中，我们首先创建了一个List<string>对象，用于存储所需的数据。然后，我们遍历HtmlAgilityPack和AngleSharp提取到的数据，并将其添加到List中。最后，通过遍历输出List中的数据。

5. 总结

本教程介绍了如何使用C#编写简单的爬虫程序。首先，我们学习了爬虫的概述和一些常用的C#爬虫框架。然后，我们学习了如何发送HTTP请求和解析网页。最后，我们介绍了如何存储和处理爬虫获取的数据。

通过学习本教程，您可以掌握使用C#编写爬虫程序的基本知识，并可以根据自己的需求进行扩展和优化。