K-近邻算法简介
发布网友
发布时间:2022-09-27 10:30
我来回答
共1个回答
热心网友
时间:2023-11-03 19:22
1.K-近邻(KNearestNeighbor,KNN)算法简介:对于一个未知的样本,我们可以根据离它最近的k个样本的类别来判断它的类别。
以下图为例,对于一个未知样本绿色小圆,我们可以选取离它最近的3的样本,其中包含了2个红色三角形,1个蓝色正方形,那么我们可以判断绿色小圆属于红色三角形这一类。
我们也可以选取离它最近的5个样本,其中包含了3个蓝色正方形,2个红色三角形,那么我们可以判断绿色小圆属于蓝色正方形这一类。
3.API文档
下面我们来对KNN算法中的参数项做一个解释说明:
'n_neighbors':选取的参考对象的个数(邻居个数),默认值为5,也可以自己指定数值,但不是n_neighbors的值越大分类效果越好,最佳值需要我们做一个验证。
'weights': 距离的权重参数,默认uniform。
'uniform': 均匀的权重,所有的点在每一个类别中的权重是一样的。简单的说,就是每个点的重要性都是一样的。
'distance':权重与距离的倒数成正比,距离近的点重要性更高,对于结果的影响也更大。
'algorithm':运算方法,默认auto。
'auto':根绝模型fit的数据自动选择最合适的运算方法。
'ball_tree':树模型算法BallTree
'kd_tree':树模型算法KDTree
'brute':暴力算法
'leaf_size':叶子的尺寸,默认30。只有当algorithm = 'ball_tree' or 'kd_tree',这个参数需要设定。
'p':闵可斯基距离,当p = 1时,选择曼哈顿距离;当p = 2时,选择欧式距离。
n_jobs:使用计算机处理器数目,默认为1。当n=-1时,使用所有的处理器进行运算。
4.应用案例演示
下面以Sklearn库中自带的数据集--手写数字识别数据集为例,来测试下kNN算法。上一章,我们简单的介绍了机器学习的一般步骤:加载数据集 - 训练模型 - 结果预测 - 保存模型。这一章我们还是按照这个步骤来执行。
[手写数字识别数据集] https://scikit-learn.org/stable/moles/generated/sklearn.datasets.load_digits.html#sklearn.datasets.load_digits
5.模型的方法
每一种模型都有一些它独有的属性方法(模型的技能,能做些什么事),下面我们来了解下knn算法常用的的属性方法。
6.knn算法的优缺点
优点:
简单,效果还不错,适合多分类问题
缺点:
效率低(因为要计算预测样本距离每个样本点的距离,然后排序),效率会随着样本量的增加而降低。
K-近邻算法简介
1.K-近邻(KNearestNeighbor,KNN)算法简介 :对于一个未知的样本,我们可以根据离它最近的k个样本的类别来判断它的类别。以下图为例,对于一个未知样本绿色小圆,我们可以选取离它最近的3的样本,其中包含了2个红色三角形,1个蓝色正方形,那么我们可以判断绿色小圆属于红色三角形这一类。 我们也可以...
什么是ISTA3L测试
ISTA3L是一个基于研究、数据驱动的测试协议,它模拟了由零售公司完成的产品订单被直接运送给消费者时所经历的危险,它允许用户评估包装产品的能力,以承受运输和处理包装产品时所经历的供应链危险,从接收到任何电子商务零售商履行操作,直到最...
一文掌握KNN(K-近邻算法,理论+实例)
K近邻算法(k-nearest neighbor, k-NN)是一种用于分类与回归的基本方法,是数据挖掘技术中原理极为简单的算法之一,主要用于解决有监督分类问题。该方法的核心在于利用训练数据集进行预测,其关键要素包括k值的选择、距离度量及分类决策规则。在算法过程中,首先计算训练样本与测试样本之间的距离,随后选取距...
knn是什么意思
KNN算法,全称为K-近邻算法,是一种非参数的分类方法,因其简单易实现而被广泛应用在分类、回归和模式识别领域。它的基本思想非常直观:通过比较样本在特征空间中的相似性,根据其K个最邻近的样本类别,判断待分类样本的归属。这种方法特别强调实例之间的直接关系,不需要复杂的模型训练。然而,在实际应用中...
什么叫做knn算法?
在模式识别领域中,最近邻居法(KNN算法,又译K-近邻算法)是一种用于分类和回归的非参数统计方法。在这两种情况下,输入包含特征空间(Feature Space)中的k个最接近的训练样本。1、在k-NN分类中,输出是一个分类族群。一个对象的分类是由其邻居的“多数表决”确定的,k个最近邻居(k为正整数,通常...
KNN(K-近邻)
一、KNN(K-近邻)算法简介 KNN算法是一种用于分类和回归的机器学习方法。其核心在于基于数据点的特征值之间的距离进行决策。KNN适用于数值型与标称型的数据,其优点在于较高的分类精度,对异常值不敏感,且无需对数据进行特定假设。然而,KNN的计算复杂度和空间复杂度较高。KNN的工作原理是:通过一个已知...
01 KNN算法 - 概述
KNN算法 全称是K近邻算法 (K-nearst neighbors,KNN)KNN是一种基本的机器学习算法,所谓K近邻,就是k个最近的邻居。即每个样本都可以用和它 最接近的k个邻近位置的样本 来代替。KNN是个相对比较简单的算法,比起之前提过的回归算法和分类算法更容易。如果一个人从来没有接触过机器学习的算法,拿到...
knn算法是什么?
KNN(K- Nearest Neighbor)法即K最邻近法,最初由Cover和Hart于1968年提出,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。作为一种非参数的分类算法,K-近邻(KNN)算法是非常有效和容易实现的。它已经广泛应用于分类、回归和模式识别等。介绍 KNN算法本身简单有效,它是一种lazy-...
分类大量数据的算法
在分类大量数据时,通常使用以下几种算法:1. **K-近邻算法(K-Nearest Neighbors, KNN)**:这是非常基础且易于实现的分类算法。它基于这样一个观察:如果一个样本在特征空间中的k个近邻样本中,有超过一半属于某一类别,那么该样本也属于这个类别。KNN算法通过投票机制来确定类别,即多数投票。K值的...
k近邻算法的介绍
K最近邻(k-Nearest Neighbour,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
常见的监督学习算法
一. K-近邻算法(k-Nearest Neighbors,KNN)K-近邻是一种分类算法,其思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只...