9种常用的数据分析方法

1. 前言

数据分析是指通过收集、整理、挖掘和分析数据,为业务决策提供支持的过程。在大数据时代,数据分析成为了企业获取竞争优势和实现商业价值的重要手段。本文将介绍九种常用的数据分析方法,包括统计分析、回归分析、聚类分析、分类分析、人工智能、机器学习、数据挖掘、文本分析和时间序列分析。

2. 统计分析

2.1 描述统计学

描述统计学(descriptive statistics)是对数据的信息进行概括和描述的方法。描述统计学依靠平均数、标准差、方差、中位数、众数、四分位数、离群值等统计量,对数据的集中趋势和分散程度等进行描绘和总结。描述统计学主要应用于数据的探索性分析和总体情况概括,不涉及数据背后的原因和因果关系。

2.2 推论统计学

推论统计学(inferential statistics)是通过从样本中得到的信息,推断出总体的特征和规律。推论统计学依靠概率分布和假设检验的方法,对样本数据的显著性、置信区间、对比效应等进行推断和判定,并对推断结果进行评价。推论统计学主要应用于从样本中推断出总体的性质、进行统计推断、进行假设检验、建立预测模型等。

# 描述统计学示例

import numpy as np

import pandas as pd

# 构造数据

data = pd.DataFrame({'id': [1, 2, 3, 4, 5], 'age': [19, 20, 23, 22, 20]})

# 计算平均年龄

avg_age = np.mean(data['age'])

# 计算年龄方差

age_var = np.var(data['age'])

# 输出结果

print('平均年龄:', avg_age)

print('年龄方差:', age_var)

# 推论统计学示例

from scipy import stats

# 构造数据

sample_data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# 检验样本是否符合正态分布

k2, p = stats.normaltest(sample_data)

if p < 0.05:

print('样本不符合正态分布')

else:

print('样本符合正态分布')

# 计算样本均值和标准误差

mean = np.mean(sample_data)

se = stats.sem(sample_data)

# 计算置信区间

ci = stats.t.interval(alpha=0.95, df=len(sample_data)-1, loc=mean, scale=se)

# 输出结果

print('置信区间:', ci)

3. 回归分析

3.1 简单线性回归

简单线性回归(simple linear regression)是研究一组变量之间线性关系的方法。其中,自变量变化时对因变量的影响和变化趋势可通过回归方程表达。回归方程中,自变量常用一个变量来表示,因变量是一个连续变量,两者之间存在一种函数关系。

3.2 多元线性回归

多元线性回归(multiple linear regression)是用来研究多个自变量和一个或多个因变量之间关系的方法。多元线性回归可以同时控制多个因素对因变量的影响,不同自变量的贡献程度可通过回归系数来评估。

# 简单线性回归示例

import statsmodels.api as sm

from sklearn.datasets import load_boston

# 加载数据集

boston = load_boston()

# 构造自变量和因变量

X = boston.data[:, 5] # 房间数量

y = boston.target # 房屋价格

# 添加常数项

X = sm.add_constant(X)

# 拟合线性回归模型

model = sm.OLS(y, X).fit()

# 打印模型概要信息

print(model.summary())

# 多元线性回归示例

import pandas as pd

from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LinearRegression

# 加载数据集

data = pd.read_csv('data/iris.csv')

# 提取自变量和因变量

X = data.iloc[:, :-1] # 花瓣和花萼长宽

y = data.iloc[:, -1] # 鸢尾花种类

# 标准化处理自变量

scaler = StandardScaler()

X = scaler.fit_transform(X)

# 拟合线性回归模型

model = LinearRegression()

model.fit(X, y)

# 打印回归系数和截距

print('回归系数:', model.coef_)

print('截距:', model.intercept_)

4. 聚类分析

4.1 层次聚类分析

层次聚类分析(hierarchical clustering)是将一组数据分成互不相交的若干个类别或簇的方法。层次聚类分析有两种形式,一种是自下而上的凝聚聚类(agglomerative clustering),一种是自上而下的分裂聚类(divisive clustering)。聚类分析可用于群体分析、市场细分、客户分群等。

4.2 K均值聚类分析

K均值聚类分析(K-means clustering)是根据数据间的相似度或距离将数据分成若干个类别的方法。K均值聚类分析需要预先设定簇数K的值,通常采用随机化质心选取的方法进行簇划分计算,并利用误差平方和的方法来评估簇划分的优劣。K均值聚类分析可用于客户价值分析、产品组合分析、市场细分等。

# 层次聚类分析示例

from scipy.cluster.hierarchy import dendrogram, linkage

import matplotlib.pyplot as plt

from sklearn.datasets import load_iris

# 加载数据集

iris = load_iris()

# 构造样本矩阵

X = iris.data

# 设置链接方式和距离度量

Z = linkage(X, method='ward', metric='euclidean')

# 绘制聚类树状图

dendrogram(Z)

# 显示图像

plt.show()

# K均值聚类分析示例

from sklearn.cluster import KMeans

# 构造数据

X = [[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]]

# 簇数设为2

kmeans = KMeans(n_clusters=2, random_state=0).fit(X)

# 打印聚类结果和聚类中心

print('簇标签:', kmeans.labels_)

print('聚类中心:', kmeans.cluster_centers_)

5. 分类分析

5.1 决策树分类

决策树分类(decision tree)是一种基于树形结构的分类方法。决策树分类通过不断根据数据特征进行分割,逐层构建树形分类器,最终得到一系列叶节点即为分类结果。决策树分类具备可解释性和可视化能力,适用于金融信贷、疾病诊断、市场调查等应用场景。

5.2 支持向量机分类

支持向量机分类(Support vector machine, SVM)是一种二分类模型,其通过将数据映射到高维空间中,建立一个最优超平面(或多项式曲面)来实现二类数据的分类。支持向量机分类可用于文本分类、股票预测、图像识别等。

# 决策树分类示例

from sklearn import datasets

from sklearn.tree import DecisionTreeClassifier

from sklearn.model_selection import train_test_split

# 加载数据集

iris = datasets.load_iris()

# 构造自变量和因变量

X = iris.data

y = iris.target

# 划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# 构建分类模型

clf = DecisionTreeClassifier()

# 拟合模型

clf.fit(X_train, y_train)

# 计算分类精度

score = clf.score(X_test, y_test)

# 输出结果

print('分类精度:', score)

# 支持向量机分类示例

from sklearn.svm import SVC

from sklearn.metrics import accuracy_score

from sklearn.datasets import make_classification

# 构造数据集

X, y = make_classification(n_samples=500, n_features=2, n_classes=2, n_informative=2, n_redundant=0, random_state=1)

# 划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# 构建分类模型

clf = SVC(C=1.0, kernel='rbf', gamma='scale')

# 拟合模型

clf.fit(X_train, y_train)

# 预测结果

y_pred = clf.predict(X_test)

# 计算分类精度

score = accuracy_score(y_test, y_pred)

# 输出结果

print('分类精度:', score)

6. 人工智能

6.1 人工智能概述

人工智能(Artificial Intelligence, AI)是利用计算机仿真人脑思维和智能来实现某些功能或任务的技术。

6.2 深度学习

深度学习(Deep Learning)是实现人工智能的一种方法,是一种基于神经网络的机器学习技术。深度学习常用于图像分类、自然语言处理、语音识别等领域。

# 人工智能示例

import tensorflow as tf

# 构造数据

(X_train, y_train), (X_test, y_test) = tf.keras.datasets.mnist.load_data()

# 构造神经网络模型

model = tf.keras.models.Sequential([

tf.keras.layers.Flatten(),

tf.keras.layers.Dense(128, activation='relu'),

tf.keras.layers.Dense(10, activation='softmax')

])

# 编译模型

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 拟合模型

model.fit(X_train, y_train, epochs=5)

# 评估模型

score = model.evaluate(X_test, y_test)

# 输出结果

print('分类精度:', score[1])

# 深度学习示例

import keras

from keras.models import Sequential

from keras.layers import Dense

from keras.utils import to_categorical

from sklearn.datasets import load_wine

from sklearn.model_selection import train_test_split

# 加载数据集

wine = load_wine()

# 构造自变量和因变量

X = wine.data

y = to_categorical(wine.target)

# 划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# 构建神经网络模型

model = Sequential([

Dense(64, input_dim=13, activation='relu'),

Dense(3, activation='softmax')

])

# 编译模型

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 拟合模型

model.fit(X_train, y_train, epochs=20, batch_size=16)

# 评估模型

score = model.evaluate(X_test, y_test, batch_size=16)

# 输出结果

print('分类精度:', score[1])

7. 机器学习

7.1 监督学习

监督学习(supervised learning)是一种从标记数据中学习预测模型的方法。监督学习包括分类和回归两种任务。分类任务是将数据分为若干个类别,回归任务是建立数据的映射函数关系。

7.2 无监督学习

无监督学习(unsupervised learning)是一种无需标签的数据学习方法。无监督学习包括聚类和关联规则挖掘两种任务。聚类任务是将数据自动分组,关联规则挖掘任务是从项集中发现频繁项以及这些频繁项之间的关联规则。

# 监督学习示例

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score

# 加载数据集

iris = load_iris()

# 构造自变量和因变量

X = iris.data

y = iris.target

# 划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# 构建分类模型

clf = KNeighborsClassifier(n_neighbors=3)

# 拟合模型

clf.fit(X_train, y_train)

# 预测结果

y_pred = clf.predict(X_test)

# 计算分类精度

score = accuracy_score(y_test, y_pred)

# 输出结果

print('分类精度:', score)

# 无监督学习示例

from sklearn.cluster import KMeans

from sklearn.datasets import make_blobs

import matplotlib.pyplot as plt

# 构造数据集

X, y = make_blobs(n_samples=200, n_features=2, centers=3, random_state=1)

# 构建聚类模型

kmeans = KMeans(n_clusters=3)

# 拟合模型

kmeans.fit(X)

# 可视化聚类结果

plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_)