非监督学习有哪些
发布网友
发布时间:2022-05-06 21:36
我来回答
共7个回答
热心网友
时间:2022-05-06 23:05
在机器学习,无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构。因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案。这区别于监督学习和强化学习无监督学习。
无监督学习是密切相关的统计数据密度估计的问题。然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。
非监督学习对应的是监督学习。
聚类(例如,混合模型,层次聚类),
隐马尔可夫模型,
盲目的信号分离使用特征提取的技术降维(例如,主成分分析,独立分量分析,非负矩阵分解,奇异值分解)。
在神经网络模型,自组织映射(SOM)和自适应共振理论(艺术)是常用的无监督学习算法。SOM是一个地形组织附近的位置在地图上代表输入有相似属性。艺术模型允许集群的数量随问题规模和让用户控制之间的相似程度相同的集群成员通过一个用户定义的常数称为警戒参数。艺术网络也用于许多模式识别任务,如自动目标识别和地震信号处理。艺术的第一个版本是"ART1",由木匠和Grossberg(1988)。
热心网友
时间:2022-05-07 00:23
无监督学习(unsupervised learning):设计分类器时候,用于处理未被分类标记的样本集
目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。非监督学习一般有两种思路。第一种思路是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定。这种思路很好的概括了现实世界,Agent可以对那些正确的行为做出激励,并对其他的行为进行处罚。
强化学习的一些形式常常可以被用于非监督学习,由于没有必然的途径学习影响世界的那些行为的全部信息,因此Agent把它的行为建立在前一次奖惩的基础上。在某种意义上,所有的这些信息都是不必要的,因为通过学习激励函数,Agent不需要任何处理就可以清楚地知道要做什么,因为它(Agent)知道自己采取的每个动作确切的预期收益。对于防止为了计算每一种可能性而进行的大量计算,以及为此消耗的大量时间(即使所有世界状态的变迁概率都已知),这样的做法是非常有益的。另一方面,在尝试出错上,这也是一种非常耗费时间的学习。
不过这一类学习可能会非常强大,因为它假定没有事先分类的样本。在某些情况下,例如,我们的分类方法可能并非最佳选择。在这方面一个突出的例子是Backgammon(西洋双陆棋)游戏,有一系列计算机程序(例如neuro-gammon和TD-gammon)通过非监督学习自己一遍又一遍的玩这个游戏,变得比最强的人类棋手还要出色。这些程序发现的一些原则甚至令双陆棋专家都感到惊讶,并且它们比那些使用预分类样本训练的双陆棋程序工作得更出色。
一种次要的非监督学习类型称之为聚合(clustering)。这类学习类型的目标不是让效用函数最大化,而是找到训练数据中的近似点。聚合常常能发现那些与假设匹配的相当好的直观分类。例如,基于人口统计的聚合个体可能会在一个群体中形成一个富有的聚合,以及其他的贫穷的聚合。
热心网友
时间:2022-05-07 01:58
由于在很多实际应用中,缺少所研究对象类别形成过程的知识,或者为了判断各个样本(模式)所属的类别需要很大的工作量(例如卫星遥感照片上各像元所对应的地面情况),因此往往只能用无类别标答的样本集进形学习。通过无监督式学习,把样本集划分为若干个子集(类别),从而直接解决看样本的分类问题,或者把它作为训练样本集,再用监督学习方法进行分类器设计。
思路
在非监督学习中,数据并不会被特别标识,学习模型是为了推断出数据的一些内在结构。非监督学习一般有两种思路:
1)第一种思路是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会被置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定,这类学习往往被称为强化学习。
2)第二种思路称为聚合(Clustering),这类学习类型的目标不是让效用函数最大化,而是找到训练数据中的近似点,本节将重点介绍此类非监督学习思路。
第二种思路的非监督学习常见的应用场景包括关联规则的学习及聚类等。常见算法包括Apriori、K-Means、EM等。[1]
方法
无监督学习主要有以下两大类方法:
(1)基于概率密度函数估计的直接方法
如果给定的样本集是由各类都服从高斯分布的样本混合在一起组成的,在类别数已知的条件下,可以用最大似然法或Bayes估计法,从混合的概率密度函数中分解出各个类的概率密度函数,然后用Bayes决策方法设计模式分类器。在非高斯概率分布情况下,只要各类的概率密度函数的形式已知,且分解是惟一的,都可以用上述方法实现分类器设计。在没有任何概率分布先验知识的情况下,可以把特征空间划分为着若干个队域,使每个区域都具有单峰的分布性质,每一个区域就相当于一个类别,这样作的基础是紧致性假设。已经合多种算法实现这种队域的划分。
(2)基于样本间相似度呈的间接聚类方法
如果用样本在特征窄问中相互问的距离来度量样本间的相似度,就可以设计出某种评价分类质量的准则函数,通过数学方法把特征空间划分为与各个类别相对应的区域,也就是通常所说的聚类分析。算法和非迭代的分级聚类算法。前者是给定某个样本集的初始划分,计算反映聚类质量的准则隔数值,如果把某个样本从原来所属的类别改属为另一个类别能使准则函数值向好的方向改进,则改变这个样本原来的类别为新的类别(新的划分)再对其他样本进行类似的运算这样反复迭代,直到没有一个样本类别的改变能改进准则函数值,即已经达到了准则函数的最优值。这一类算法中著名的有C-均值算法和ISODATA算法,C-均值算法要求类别数预先给定,并把各样本到所属类别样本子集的均值向量的距离平方和作为评价聚类质量的准则函数。ISODATA算法可以自动地调整类别数,并可对各类样本的某些统计性质(如样本数餐、样本特征的标准偏差等)作些*。非迭代的分级聚类算法:第一步把每一个样本都看成一个类,给定两类样本间相似度计算方法,计算类与类之间的相似度。第二步把其中相似度最大的两个类合并为一个类,再计算新的类与类之间的相似度。第三步再把其中相似把所有的样本都合为一类为止。根据问题的性质以及各级的相似度大小,就可以确定合理的聚类差别数和各类所包含的样本,在应用分级聚类算法时要选择适当的类与类间相似度汁算力’法,不同的计算方法会导致完全不同的聚类结果。
聚类分析是无监督学习的主要方法,它能从大量的数据集中找出有规律性的结果。为了适应各种实际问题的数据结构的特点,还发展了以上述方法为基础的各种其他算法[2]
热心网友
时间:2022-05-07 03:49
无监督学习(Unsupervised Learning)是和监督学习相对的另一种主流机器学习的方法,我们知道监督学习解决的是“分类”和“回归”问题,而无监督学习解决的主要是“聚类(Clustering)”问题。
从无监督学习说起:算法模型有哪几种?
监督学习通过对数据进行标注,来让机器学习到,比如:小曹多重多高就是胖纸,或者用身高体重等数据,来计算得到小曹的BMI系数;而无监督学习则没有任何的数据标注(超过多高算高,超过多重算胖),只有数据本身。
比如:有一大群人,知道他们的身高体重,但是我们不告诉机器“胖”和“瘦”的评判标准,聚类就是让机器根据数据间的相似度,把这些人分成几个类别。
那它是怎么实现的呢?怎么才能判断哪些数据属于一类呢?
这是几种常见的主要用于无监督学习的算法。
K均值(K-Means)算法;
自编码器(Auto-Encoder);
主成分分析(Principal Component Analysis)。
K均值算法
K均值算法有这么几步:
从无监督学习说起:算法模型有哪几种?
随机的选取K个中心点,代表K个类别;
计算N个样本点和K个中心点之间的欧氏距离;
将每个样本点划分到最近的(欧氏距离最小的)中心点类别中——迭代1;
计算每个类别中样本点的均值,得到K个均值,将K个均值作为新的中心点——迭代2;
重复234;
得到收敛后的K个中心点(中心点不再变化)——迭代4。
上面提到的欧氏距离(Euclidean Distance),又叫欧几里得距离,表示欧几里得空间中两点间的距离。我们初中学过的坐标系,就是二维的欧几里得空间,欧氏距离就是两点间的距离,三维同理,*空间的计算方式和三维二维相同。
热心网友
时间:2022-05-07 05:57
简述
由于在很多实际应用中,缺少所研究对象类别形成过程的知识,或者为了判断各个样本(模式)所属的类别需要很大的工作量(例如卫星遥感照片上各像元所对应的地面情况),因此往往只能用无类别标答的样本集进形学习。通过无监督式学习,把样本集划分为若干个子集(类别),从而直接解决看样本的分类问题,或者把它作为训练样本集,再用监督学习方法进行分类器设计。
思路
在非监督学习中,数据并不会被特别标识,学习模型是为了推断出数据的一些内在结构。非监督学习一般有两种思路:
1)第一种思路是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会被置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定,这类学习往往被称为强化学习。
2)第二种思路称为聚合(Clustering),这类学习类型的目标不是让效用函数最大化,而是找到训练数据中的近似点,本节将重点介绍此类非监督学习思路。
第二种思路的非监督学习常见的应用场景包括关联规则的学习及聚类等。常见算法包括Apriori、K-Means、EM等。[1]
方法
无监督学习主要有以下两大类方法:
(1)基于概率密度函数估计的直接方法
如果给定的样本集是由各类都服从高斯分布的样本混合在一起组成的,在类别数已知的条件下,可以用最大似然法或Bayes估计法,从混合的概率密度函数中分解出各个类的概率密度函数,然后用Bayes决策方法设计模式分类器。在非高斯概率分布情况下,只要各类的概率密度函数的形式已知,且分解是惟一的,都可以用上述方法实现分类器设计。在没有任何概率分布先验知识的情况下,可以把特征空间划分为着若干个队域,使每个区域都具有单峰的分布性质,每一个区域就相当于一个类别,这样作的基础是紧致性假设。已经合多种算法实现这种队域的划分。
(2)基于样本间相似度呈的间接聚类方法
如果用样本在特征窄问中相互问的距离来度量样本间的相似度,就可以设计出某种评价分类质量的准则函数,通过数学方法把特征空间划分为与各个类别相对应的区域,也就是通常所说的聚类分析。算法和非迭代的分级聚类算法。前者是给定某个样本集的初始划分,计算反映聚类质量的准则隔数值,如果把某个样本从原来所属的类别改属为另一个类别能使准则函数值向好的方向改进,则改变这个样本原来的类别为新的类别(新的划分)再对其他样本进行类似的运算这样反复迭代,直到没有一个样本类别的改变能改进准则函数值,即已经达到了准则函数的最优值。这一类算法中著名的有C-均值算法和ISODATA算法,C-均值算法要求类别数预先给定,并把各样本到所属类别样本子集的均值向量的距离平方和作为评价聚类质量的准则函数。ISODATA算法可以自动地调整类别数,并可对各类样本的某些统计性质(如样本数餐、样本特征的标准偏差等)作些*。非迭代的分级聚类算法:第一步把每一个样本都看成一个类,给定两类样本间相似度计算方法,计算类与类之间的相似度。第二步把其中相似度最大的两个类合并为一个类,再计算新的类与类之间的相似度。第三步再把其中相似把所有的样本都合为一类为止。根据问题的性质以及各级的相似度大小,就可以确定合理的聚类差别数和各类所包含的样本,在应用分级聚类算法时要选择适当的类与类间相似度汁算力’法,不同的计算方法会导致完全不同的聚类结果。
聚类分析是无监督学习的主要方法,它能从大量的数据集中找出有规律性的结果。为了适应各种实际问题的数据结构的特点,还发展了以上述方法为基础的各种其他算法
热心网友
时间:2022-05-07 08:22
非监督学习是监督学习的反向。
监督学习是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。
监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成
利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的 过程,也称为监督训练或有教师学习。
监督学习是从标记的训练数据来推断一个功能的机器学习任务。
监督学习中需要注意的问题:
1、偏置方差权衡
第一个问题就是偏置和方差之间的权衡。假设我们有几种不同的,但同样好的演算数据集。一种学习算法是基于一个未知数的输入,在经过这些数据集的计算时,系统会无误的预测到并将正确的未知数输出。一个学习算法在不同的演算集演算时如果预测到不同的输出值会对特定的输入有较高的方差。一个预测误差学习分类器是与学习算法中的偏差和方差有关的。一般来说,偏差和方差之间有一个权衡。较低的学习算法偏差必须“灵活”,这样就可以很好的匹配数据。但如果学习算法过于灵活,它将匹配每个不同的训练数据集,因此有很高的方差。许多监督学习方法的一个关键方面是他们能够调整这个偏差和方差之间的权衡(通过提供一个偏见/方差参数,用户可以调整)。
2、功能的复杂性和数量的训练数据
第二个问题是训练数据可相对于“真正的”功能(分类或回归函数)的复杂度的量。如果真正的功能是简单的,则一个“不灵活的”学习算法具有高偏压和低的方差将能够从一个小数据量的学习。但是,如果真功能是非常复杂的(例如,因为它涉及在许多不同的输入要素的复杂的相互作用,并且行为与在输入空间的不同部分),则该函数将只从一个非常大的数量的训练数据,并使用可学习“灵活”的学习算法具有低偏置和高方差。因此,良好的学习算法来自动调整的基础上可用的数据量和该函数的明显的复杂性要学习的偏压/方差权衡。