使用Pandas读取不同格式数据
Pandas是一个数据处理库,提供了很多方便的方法帮助读取、修改和分析数据。在Pandas中,我们可以直接读取不同格式的数据文件,包括表格、json和csv等。下面我们详细介绍如何使用Pandas读取不同格式的数据。
1. 读取表格数据
如果我们需要读取表格数据,Pandas提供了read_html函数,它可以直接读取网页中的表格数据。我们只需要指定网页的URL或本地的HTML文件路径即可。
import pandas as pd
url = 'https://www.w3schools.com/html/html_tables.asp'
tables = pd.read_html(url)
print('总共有{}个表格'.format(len(tables)))
print('第一个表格:\n', tables[0])
输出结果如下:
总共有1个表格
第一个表格:
Name Type Year
0 Alfred Human 1976-07-23
1 Betty Human 1947-03-13
2 Cathy Human 1979-01-23
3 Doug Human 1987-11-03
4 Elephant Animal NaN
从结果中可以看出,我们成功地读取了网页中的表格数据,并将其转化为了Pandas的DataFrame格式。
2. 读取json数据
如果我们需要读取json数据,Pandas提供了read_json函数,它可以直接读取json文件或json格式的字符串数据。下面我们以json文件为例进行演示。
import pandas as pd
# 读取json文件
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/data.json'
df = pd.read_json(url)
# 打印DataFrame的前5行
print(df.head())
输出结果如下:
name email gender age
0 Alice alice.jones@gmail.com female 25
1 Bob bob.smith@aol.com male 32
2 Claire claire.turner@gmail.com female 29
3 David dave.walsh@gmail.com male 41
4 Ellen ellen.baker@aol.com female 36
从结果中可以看出,我们成功地读取了json文件,并将其转化为了Pandas的DataFrame格式。
3. 读取csv数据
如果我们需要读取csv数据,Pandas提供了read_csv函数,它可以直接读取csv文件。我们只需要指定csv文件的路径即可。下面我们以Titanic数据集为例进行演示。
import pandas as pd
# 读取csv文件
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
df = pd.read_csv(url)
# 打印DataFrame的前5行
print(df.head())
输出结果如下:
Survived Pclass Name Sex Age Siblings/Spouses Aboard Parents/Children Aboard Fare
0 0 3 Mr. Owen Harris Braund male 22.0 1 0 7.2500
1 1 1 Mrs. John Bradley (Florence Briggs Thayer) Cum... female 38.0 1 0 71.2833
2 1 3 Miss. Laina Heikkinen female 26.0 0 0 7.9250
3 1 1 Mrs. Jacques Heath (Lily May Peel) Futrelle female 35.0 1 0 53.1000
4 0 3 Mr. William Henry Allen male 35.0 0 0 8.0500
从结果中可以看出,我们成功地读取了csv文件,并将其转化为了Pandas的DataFrame格式。
4. 小结
本文介绍了如何使用Pandas读取不同格式的数据。我们可以使用read_html函数直接读取网页中的表格数据;使用read_json函数直接读取json文件或json格式的字符串数据;使用read_csv函数直接读取csv文件。这些函数能够快速方便地读取需要处理的数据,为进一步的数据分析和处理提供了便利。