利用python汇总统计多张Excel

1. 简介

在日常的工作中,我们经常会遇到需要统计多张Excel表格的情况。如果手动逐个打开表格并进行统计,不仅费时费力,而且容易出错。幸运的是,利用Python我们可以很方便地完成这个任务。本文将介绍如何利用Python对多张Excel表格进行汇总统计。

2. 准备工作

2.1 安装Python库

在开始之前,我们需要安装pandas和openpyxl这两个Python库。可以使用以下命令进行安装:

pip install pandas openpyxl

2.2 导入Python库

安装完所需的库之后,我们可以在Python脚本中导入它们:

import pandas as pd

from openpyxl import load_workbook

3. 读取Excel表格

3.1 指定文件路径

首先,我们需要指定需要读取的Excel表格的文件路径。假设我们的表格都存储在一个文件夹下,文件夹路径为"data"。我们可以使用以下代码获取该文件夹下的所有Excel文件的文件名:

import os

folder_path = 'data'

files = os.listdir(folder_path)

excel_files = [f for f in files if f.endswith(".xlsx") or f.endswith(".xls")]

3.2 读取数据

接下来,我们需要逐个读取每个Excel文件的数据。可以使用pandas库的read_excel函数实现:

dataframes = []

for file in excel_files:

file_path = os.path.join(folder_path, file)

df = pd.read_excel(file_path)

dataframes.append(df)

3.3 合并数据

读取完所有Excel文件的数据后,我们可以使用pandas库的concat函数将它们合并成一个DataFrame:

combined_data = pd.concat(dataframes)

4. 数据统计

4.1 数据清洗

在对数据进行统计之前,我们可能需要先对数据进行一些清洗工作。例如,删除重复数据、填充缺失值等。

4.2 统计指标

根据具体的需求,我们可以对合并后的数据进行各种统计操作。例如,计算平均值、求和、计数等。

average = combined_data['列名'].mean()

total = combined_data['列名'].sum()

count = combined_data['列名'].count()

5. 结果输出

5.1 创建新的Excel表格

最后,我们可以将统计结果输出到一个新的Excel表格中。可以使用pandas库的to_excel函数实现:

output_path = 'result.xlsx'

with pd.ExcelWriter(output_path, engine='openpyxl') as writer:

combined_data.to_excel(writer, index=False, sheet_name='Sheet1')

6. 总结

通过以上步骤,我们可以利用Python对多张Excel表格进行汇总统计。首先,我们需要指定文件路径并读取所有的Excel表格。然后,我们可以根据需要对数据进行清洗和统计。最后,我们将统计结果输出到一个新的Excel表格中。

使用Python进行统计可以大大提高工作效率,并且减少错误的发生。希望本文对您有所帮助!

后端开发标签