在数据挖掘过程中,好像有些算法要求变量必须是正太分布的,我想知道什么时候需要对数据进行标准化处理?
发布网友
发布时间:2022-04-28 11:21
我来回答
共2个回答
热心网友
时间:2023-10-05 06:01
这跟数据预处理可能有关系,当要使用的实验数据没有满足实验要求时,就需要对数据进行规范化处理。
热心网友
时间:2023-10-05 06:01
标准化/归一化都是对变量进行scale的数据预处理基本方法,是否采用或采用哪种,完全取决于你使用的数据分析处理算法的需求。
此类预处理主要有两个目的,一是使变量间尺度接近,避免出现计算误差或影响如距离之类度量的均衡性。二是使各变量值或样本矢量的度量值在算法要求的区间内。
至于正态分布性,一般是算法的适用假设,应该在算法应用前或后做此检验以保证可靠性,而不是要求用什么变换方法把数据处理成正态分布。如误差的正态分布假设是回归无偏的基本条件,或某些基于类簇是正态分布的聚类算法只有在问题确实符合这种模式下才能得到正确结果。
当然,如果仅仅要将特定分布数据转换成另一种分布还是有办法的。但用途应该比较特殊。
热心网友
时间:2023-10-05 06:01
这跟数据预处理可能有关系,当要使用的实验数据没有满足实验要求时,就需要对数据进行规范化处理。
热心网友
时间:2023-10-05 06:01
标准化/归一化都是对变量进行scale的数据预处理基本方法,是否采用或采用哪种,完全取决于你使用的数据分析处理算法的需求。
此类预处理主要有两个目的,一是使变量间尺度接近,避免出现计算误差或影响如距离之类度量的均衡性。二是使各变量值或样本矢量的度量值在算法要求的区间内。
至于正态分布性,一般是算法的适用假设,应该在算法应用前或后做此检验以保证可靠性,而不是要求用什么变换方法把数据处理成正态分布。如误差的正态分布假设是回归无偏的基本条件,或某些基于类簇是正态分布的聚类算法只有在问题确实符合这种模式下才能得到正确结果。
当然,如果仅仅要将特定分布数据转换成另一种分布还是有办法的。但用途应该比较特殊。