算法描述

首先描述下KNN算法的使用场景，假设我们有数据集：

T=\{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), ..., (\mathbf{x}_n, y_n)\}

其中， $\mathbf{x} \in \mathbb{R}^{n}$ 为实例的特征向量， $y\in \{c_1, c_2, ..., c_K\}$ 为实例的分类。如果此时给定一个特征向量 $\mathbf{x}$ ，我们需要输出 $\mathbf{x}$ 所属的分类。

KNN假设我们的实例数据集已经确定了，即每个实例的特征向量都有对应的分类，因此KNN算法没有训练过程。我们要做的是，给定一个邻近数值 $k$ ，然后计算选择出和需要分类的向量 $\mathbf{x}$ 最相近的 $k$ 个实例，记为 $N_k(\mathbf{x})$ ，然后根据一定的决策规则，从 $N_k(\mathbf{x})$ 中决定 $\mathbf{x}$ 所属的类别

算法模型说明

距离度量

这是指输入的向量 $\mathbf{x}$ 与所有实例的距离，有多种形式，这里我们给出最长用的 $L_p$ 距离：

L_p(\mathbf{x}_i, \mathbf{x}_j) = (\sum_{l=1}^n|\mathbf{x}_i^{(l)}-\mathbf{x}_j^{(l)}|^p)^{\frac{1}{p}}

这里， $p \ge 1$ 。如果 $p = 1$ ，则是曼哈顿距离； $p = 2$ ，则是欧几里得距离。

$k$ 值选择

$k$ 值如果过小，那么只有和输入数据距离很近的实例才会发生作用，此时模型会对输入数据的邻近点非常敏感。如果邻近点是噪声数据点，则数据波动会很大。从另一个角度将， $k$ 值小意味着模型会相对复杂，容易出现过拟合的现象。

$k$ 值如果过大，这种情况比较容易理解，假设 $k$ 和实例数一样，那么会直接匹配到最近点，此时说明模型太简单了，实际意义不大。

实际中，我们一般选择一个相对较小的 $k$ 值，然后交叉验证即可

分类决策规则

假设我们选择出了最近的 $k$ 个实例，此时需要确认输入向量到底属于哪个分类。一般来说，我们通过多数表决的方式决定。

算法实现

数据量比较大的情况下，直接遍历数据集是不显示的，因为此时的复杂度是 $O(N)$ 级别的。这里引入 $kd-Tree$ 的方式，对已有的数据集建立kd-tree索引，把复杂度搜索的复杂度降到 $\log{N}$ 。

$kd-Tree$ 的wiki

统计学习方法--k邻近算法

算法描述

算法模型说明

算法实现