pandas和spark dataframe互相转换实例详解-猿码集

在数据分析和机器学习中，使用pandas和Spark是非常常见的。Pandas是一个Python库，提供了高性能、易于使用的数据结构和数据分析工具，而Spark是一个分布式数据处理框架，可以处理大规模数据。在实际应用中，我们经常需要将pandas的DataFrame转换为Spark的DataFrame，或者将Spark的DataFrame转换为pandas的DataFrame。本文将详细介绍如何进行这些转换。

1. pandas转换为Spark DataFrame

1.1 创建pandas DataFrame

首先，让我们创建一个简单的pandas DataFrame用于演示：


import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie'],
        'age': [25, 30, 35],
        'gender': ['Female', 'Male', 'Male']}
df_pandas = pd.DataFrame(data)

这个DataFrame有三列：name、age和gender。接下来，我们将介绍两种方法将其转换为Spark DataFrame。

1.2 使用Spark的createDataFrame方法

Spark提供了一个createDataFrame方法，可以从pandas DataFrame创建Spark DataFrame。使用该方法需要先安装pyarrow库：


from pyspark.sql import SparkSession
import pyarrow as pa
spark = SparkSession.builder.getOrCreate()
df_spark = spark.createDataFrame(df_pandas)

使用createDataFrame方法将pandas DataFrame转换为Spark DataFrame非常简单，只需要将pandas DataFrame作为参数传递给createDataFrame方法即可。

1.3 使用Spark的toPandas方法

另一种将pandas DataFrame转换为Spark DataFrame的方法是使用Spark的toPandas方法。这个方法会将Spark DataFrame转换为pandas DataFrame，然后再将其转换为Spark DataFrame：


df_spark = spark.createDataFrame(df_pandas.toPandas())

这个方法的缺点是需要将数据从Spark转换为pandas，然后再转换回来，可能会导致性能问题。因此，推荐使用createDataFrame方法。

2. Spark DataFrame转换为pandas

2.1 使用toPandas方法

与将pandas转换为Spark DataFrame一样，Spark提供了一个toPandas方法可以将Spark DataFrame转换为pandas DataFrame：


df_pandas = df_spark.toPandas()

这个方法非常简单，直接将Spark DataFrame转换为pandas DataFrame。

2.2 使用collect方法

另一种将Spark DataFrame转换为pandas DataFrame的方法是使用Spark的collect方法。这个方法将Spark DataFrame的所有数据收集到Driver节点上，并返回一个包含所有数据的列表。然后，我们可以使用pandas的from_records方法将这个列表转换为pandas DataFrame：


data = df_spark.collect()
df_pandas = pd.DataFrame(data)

pandas和spark dataframe互相转换实例详解

1. pandas转换为Spark DataFrame

1.1 创建pandas DataFrame

1.2 使用Spark的createDataFrame方法

1.3 使用Spark的toPandas方法

2. Spark DataFrame转换为pandas

2.1 使用toPandas方法

2.2 使用collect方法

相关阅读

后端开发标签

Python热门

Python更新