Pandas可以直接读取网页html「表格」、json、csv等格式

使用Pandas读取不同格式数据

Pandas是一个数据处理库,提供了很多方便的方法帮助读取、修改和分析数据。在Pandas中,我们可以直接读取不同格式的数据文件,包括表格、json和csv等。下面我们详细介绍如何使用Pandas读取不同格式的数据。

1. 读取表格数据

如果我们需要读取表格数据,Pandas提供了read_html函数,它可以直接读取网页中的表格数据。我们只需要指定网页的URL或本地的HTML文件路径即可。

import pandas as pd

url = 'https://www.w3schools.com/html/html_tables.asp'

tables = pd.read_html(url)

print('总共有{}个表格'.format(len(tables)))

print('第一个表格:\n', tables[0])

输出结果如下:

总共有1个表格

第一个表格:

Name Type Year

0 Alfred Human 1976-07-23

1 Betty Human 1947-03-13

2 Cathy Human 1979-01-23

3 Doug Human 1987-11-03

4 Elephant Animal NaN

从结果中可以看出,我们成功地读取了网页中的表格数据,并将其转化为了Pandas的DataFrame格式。

2. 读取json数据

如果我们需要读取json数据,Pandas提供了read_json函数,它可以直接读取json文件或json格式的字符串数据。下面我们以json文件为例进行演示。

import pandas as pd

# 读取json文件

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/data.json'

df = pd.read_json(url)

# 打印DataFrame的前5行

print(df.head())

输出结果如下:

name email gender age

0 Alice alice.jones@gmail.com female 25

1 Bob bob.smith@aol.com male 32

2 Claire claire.turner@gmail.com female 29

3 David dave.walsh@gmail.com male 41

4 Ellen ellen.baker@aol.com female 36

从结果中可以看出,我们成功地读取了json文件,并将其转化为了Pandas的DataFrame格式。

3. 读取csv数据

如果我们需要读取csv数据,Pandas提供了read_csv函数,它可以直接读取csv文件。我们只需要指定csv文件的路径即可。下面我们以Titanic数据集为例进行演示。

import pandas as pd

# 读取csv文件

url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'

df = pd.read_csv(url)

# 打印DataFrame的前5行

print(df.head())

输出结果如下:

Survived Pclass Name Sex Age Siblings/Spouses Aboard Parents/Children Aboard Fare

0 0 3 Mr. Owen Harris Braund male 22.0 1 0 7.2500

1 1 1 Mrs. John Bradley (Florence Briggs Thayer) Cum... female 38.0 1 0 71.2833

2 1 3 Miss. Laina Heikkinen female 26.0 0 0 7.9250

3 1 1 Mrs. Jacques Heath (Lily May Peel) Futrelle female 35.0 1 0 53.1000

4 0 3 Mr. William Henry Allen male 35.0 0 0 8.0500

从结果中可以看出,我们成功地读取了csv文件,并将其转化为了Pandas的DataFrame格式。

4. 小结

本文介绍了如何使用Pandas读取不同格式的数据。我们可以使用read_html函数直接读取网页中的表格数据;使用read_json函数直接读取json文件或json格式的字符串数据;使用read_csv函数直接读取csv文件。这些函数能够快速方便地读取需要处理的数据,为进一步的数据分析和处理提供了便利。

后端开发标签