Python实现K-近邻算法的示例代码-猿码集

1. 了解K-近邻算法

K-近邻算法（K-Nearest Neighbors，简称KNN）是一种简单但常用的机器学习算法。通过在训练集中找到离待预测点最近的K个样本点，来预测该点的类别或输出值。KNN算法有着很强的可解释性，适用于分类和回归问题。

2. KNN算法的原理

2.1 分类问题

对于分类问题，KNN算法的原理如下：

计算所有样本点与待预测点的距离;

选取距离最近的K个样本点;

根据这K个样本点的类别来预测待预测点的类别（常用的方法是选择K个样本中出现次数最多的类别作为待预测点的类别）。

KNN算法中距离的计算通常使用欧式距离或其他距离度量方式，如曼哈顿距离、闵可夫斯基距离等。

2.2 回归问题

对于回归问题，KNN算法的原理稍有不同：

计算所有样本点与待预测点的距离;

选取距离最近的K个样本点;

根据这K个样本点的输出值来预测待预测点的输出值（常用的方法是取K个样本的平均值作为待预测点的输出值）。

3. Python实现KNN算法的示例代码

下面是使用Python实现KNN算法的示例代码：

import numpy as np
def knn_classify(X, y, x, k):
    distances = np.linalg.norm(X - x, axis=1)
    top_k_indices = np.argsort(distances)[:k]
    top_k_labels = y[top_k_indices]
    return np.argmax(np.bincount(top_k_labels))
def knn_regress(X, y, x, k):
    distances = np.linalg.norm(X - x, axis=1)
    top_k_indices = np.argsort(distances)[:k]
    top_k_outputs = y[top_k_indices]
    return np.mean(top_k_outputs)
# 示例用法
X_train = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y_train = np.array([0, 1, 0, 1])
x_test = np.array([4, 5])
k = 3
predicted_class = knn_classify(X_train, y_train, x_test, k)
print("Predicted class:", predicted_class)
X_train_regress = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
y_train_regress = np.array([1, 2, 3, 4])
x_test_regress = np.array([6, 7, 8])
k_regress = 2
predicted_output = knn_regress(X_train_regress, y_train_regress, x_test_regress, k_regress)
print("Predicted output:", predicted_output)

上述代码中，我们定义了两个函数：knn_classify用于分类问题，knn_regress用于回归问题。其中，X和y分别表示训练集的特征和标签，x表示待预测样本的特征，k表示选取的最近邻个数。

代码中使用numpy库来进行距离计算、排序和统计。首先计算所有样本点与待预测点之间的距离，然后选取距离最近的K个样本点。对于分类问题，使用np.argmax(np.bincount(top_k_labels))来预测类别；对于回归问题，使用np.mean(top_k_outputs)来预测输出值。

4. 示例解释与结果

我们以一个简单的二维分类问题为例进行示例解释。

给定一个训练集X_train和对应的标签y_train，我们要预测点x_test=[4, 5]属于什么类别。选取的最近邻个数k为3。

X_train = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y_train = np.array([0, 1, 0, 1])
x_test = np.array([4, 5])
k = 3

通过调用knn_classify(X_train, y_train, x_test, k)函数，我们得到预测的类别为1。

Predicted class: 1

同样地，对于回归问题，我们给出一个示例进行解释。

给定一个包含三个特征的训练集X_train_regress和对应的输出值y_train_regress，我们要预测样本x_test_regress=[6, 7, 8]的输出值。选取的最近邻个数k_regress为2。

X_train_regress = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
y_train_regress = np.array([1, 2, 3, 4])
x_test_regress = np.array([6, 7, 8])
k_regress = 2

通过调用knn_regress(X_train_regress, y_train_regress, x_test_regress, k_regress)函数，我们得到预测的输出值为2.5。

Predicted output: 2.5

5. 总结

KNN算法是一种简单且常用的机器学习算法，能够实现分类和回归任务。本文通过Python示例代码展示了如何使用KNN算法来进行分类和回归预测。不同问题需要调整选取的最近邻个数k和距离度量方式，能够更好地适应不同的数据分布。

在实际应用中，KNN算法可以用于图像分类、推荐系统、异常检测等领域。在使用KNN算法时，我们需要注意数据预处理、选择合适的k值以及选择合适的距离度量方式，以提高算法的性能和泛化能力。

Python实现K-近邻算法的示例代码

1. 了解K-近邻算法

2. KNN算法的原理

2.1 分类问题

2.2 回归问题

3. Python实现KNN算法的示例代码

4. 示例解释与结果

5. 总结

相关阅读

后端开发标签

Python热门

Python更新