机器学习之K邻近


K邻近KNN K-Nearest Neighbor

K邻近是一种非常简单的监督学习分类方法. KNN指的是每个样本都可以通过它最近的K个样本来代表. 比方说在下述图片中, 若K=3, 找到距离未知样本即绿色圆圈最近的3个样本, 在该范围内红色三角占$\frac 2 3$, 则绿色圆圈被认为是红色三角的类别. 若K=5, 则蓝色方块所占的比例为$\frac 3 5$, 绿色圆圈被认为是蓝色方块. 如果K的取指不同, 则未知样本的类别也会产生改变, 所以结果很大程度取决于K的选择.

当然, 在这个过程中距离不一定是欧氏距离, 还可以选择曼哈顿距离.
$$
d(x, y) = \sqrt{\sum_{k=1}^n |x_k - y_k|}
$$
在实际应用过程中, 还可以基于距离的远近进行加权平均或投票, 距离越近的样本权重越大.

KNN是一种Lazy learner, 也就是懒惰学习算法. 它不需要训练, 只是单纯的记住所有的训练样本, 在进行预测时根据已经记住的训练集去寻找临近, 从而获得结果.


文章作者: DaNing
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 DaNing !
评论
 上一篇
机器学习之集成学习 机器学习之集成学习
集成学习 Ensemble LearningBoosting, Bagging, Stacking都是集成学习的方式, 都是考虑用多个弱学习器通过某种方式集合在一起, 形成一个泛化性能更强的强学习器. BoostingBoosting是一种
2020-08-09
下一篇 
机器学习之决策树 机器学习之决策树
2020.09.08: 更新了剪枝. 决策树DT Desicion Tree决策树(Decision Tree) 是在已知各种情况发生概率的基础上, 通过构成决策树来求取净现值的期望值大于等于零的概率, 评价项目风险, 判断其可行性的决
2020-08-07
  目录