发布网友 发布时间:2022-05-06 18:38
共1个回答
热心网友 时间:2023-10-15 10:08
5.2基本描述分析基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度。描述集中趋势的描述性统计量一般有均值、中位数和众数;描述离散程度的描述性统计量一般有方差、标准差和极差。5.2.1计算基本描述统计量在流中添加“Statistics”节点,打开设置面板。在“检查”中用户可以选择要进行统计的变量如下;然后在“统计量”中可以选择可统计的描述性统计量有哪些;在“相关”中可以设置与哪些变量进行简单相关分析(即求得Pearson简单相关系数)。Clementine数据基本分析(一)在“相关设置”中可以设置相关分析的一些参数如下。Clementine数据基本分析(一)下图为得到的相关分析及其它描述性统计分析的结果:Clementine数据基本分析(一)还可以生成符合要求的Filter。在Generate工具中,可以根据需要设置一定的相关性条件,然后生成Filter,这个功能很重要。5.2.2绘制散点图除了进行描述性统计分析外,还可以生成散点图查看数据间的要关性,添加节点“Plot”并打开设置面板。“X字段”中选择X轴变量;“Y字段”中选择Y轴变量。Overlay为交叠字段,你可以在Color、Size或Shape中选择Overlay字段即流失字段,从而在散点图中实现相应效果。“面板”表示可以绘制多个不同散点图反映Overlay变量;“动画”表示以动画方式显示多张散点图。交叠字段类型选项:无:表示不拟合回归直线;平滑器(Smoother):表示采用LOESS(Locallyweightediterativerobustleastsquaresregression)方法,拟合样本数据的回归线并显示;函数(Function):表示自德输入一个回归议程,回归线也显示。Clementine数据基本分析(一)结果如下:Clementine数据基本分析(一)5.4两分类变量相关性的研究两分类变量的相关性研究在实践中有广泛应用。做DataMining,对数据的类型应该极为敏感,几乎任何的统计分析或者数据挖掘,都要涉及这样一个问题:是分类型变量还是数值型变量。同理,前面我们使用相关和回归两个思维来对数值型变量的相关性进行了探讨,其中涉及到许多描述性统计量,既有描述数据集中趋势的,也有描述数据离散程度的。也涉及到散点图等图形。下面,我们将涉足分类变量。分类变量中最有名的分析,莫过于列联分析,但我们一开始并不介绍它。一般分析分为图形分析和数值分析,不止于两分类变量5.4.1两分类变量相关性的图形分析一、条形图将“Distribution”节点添加到流上。Distribution提供了两种输入字段的途径。“选定字段”选中,我们可以自定义哪些分类型字段可以进入;“所有标志”选中,则前面“Type”节点中的所有分类型字段都会进入分析。这里我们自定义“套餐类型”为我们的描述字段,然后在交叠字段中设置为“流失”。一般情况下,目标变量恒为交叠字段。”按“比例尺”表示将把频数最多的取值对应的条设置为最长,然后其它的条都会按比例设置,这样能更加清晰地看到不同取值的频数的差异;“按颜色标准化”,选中表示所有的条形都会被设置为相同长度,然后不同颜色比例表示目标变量取值不同时的情况,但“按颜色标准化”后,我们就不能比较不同取值下频数的差异了。Clementine数据基本分析(一)Clementine数据基本分析(一)二、Web图Web图的力量在沈浩老师挖挖双色球案例中得到充分的体现。Web图为我们提供了两种分类比较模型,一是计算两两分类变量间的相关性,一是计算多个分类变量对一个分类变量的相关性。将“Web”节点添加到流上,打开设置面板。网络:选中表示系统将计算两两分类变量间的相关性,在下面会让用户自定义进行两两分析的字段;导向网络:选中表示系统将计算多个分类变量对一个分类变量的相关性,选中后会让用户自定义分析变量和目标变量;仅显示真值标志:选中表示仅显示“流失”取值为“Yes”的网络,我们往往不进行这样的选择;得到如下的结果图。在结果图中,系统在标尺上有默认的两个边界,如图中为44和250,则表示Web图中最细线表示有频数44个,最粗线表示含频数250个。得到的Web图取值呈上下结构,其中下面的“Yes”和“No”是流失的两个取值,而上面的四个点是套餐类型的四个取值。其中,线条粗细程度代表着相关性程度。Clementine数据基本分析(一)Clementine数据基本分析(一)5.4.2两分类变量相关性的数值分析一、计算两分类变量的列联表以上我们通过两种图——Web图和条形图——对两分类变量的相关性进行了图形分析,除此之外,我们还可以对其进行数值分析。数值分析指的就是列联分析及相应的卡方分析。这里,我们使用的两分类变量仍然来自于电信客户数据的两个字段:套餐类型与客户是否流失。将Output卡中的“Matrix”节点添加到流中,打开设置面板。Matrix为我们提供了几种选择字段的方式。Slected:选中表示自定义列联表的行变量和列变量。我们在Rows中选择“套餐类型”,在Columns中选择“流失”。AllFlags:选中表示将对所有Flag型变量进行列联表分析,生成多个列联表。IncludeMissingValues:选中表示即使取值为缺失值,也被列入相关的频数内。列联表分析的是多个分类变量间的相关性,统计的就自然是频数了。如果想把含缺失值的样本剔除出去,也可以通过DataAudit节点进行相关操作。CellContents:Table-tabulations表示列联表各单元格(Cell)中统计的是样本的频数,一般的列联表都是进行频数统计;Function表示列联表各单元格为指定变量的分类描述统计量,应该地Field中指定相关变量,描述统计量也可以自定义选择。打开Appearance面板,我们简要介绍一下其中的功能设置。Highlighttop:表示频数最高的若干项数据以红字显示,具体的数额可以在后面设置;Highlightbottom:表示频数最低的若干项数据以显示,具体的数额可以在后面设置;Cross-tabulationcellcontents:Counts:表示显示观测频数;ExceptedValues:表示显示期望频数;Resials:表示显示残差;PercentageOfrow:表示计算行百分比;Percentageofcolumn:表示计算列百分比;PercentageOfTotal:表示计算总百分比。注意这三个百分比的不同表示及不同意义。Clementine数据基本分析(一)Clementine数据基本分析(一)二、行列变量的相关性分析通过对以上数据的分析,我们知道套餐类型与客户流失具有关联性,那么,这种关联性是此数据的偶然结果呢,还是总体即有这种关联性呢?从统计学上讲,这种分类变量间的关联性,是由于样本抽取过程中的随机误差导致的呢,还是系统本身固有的属性呢?为此,我们需要对此关联性做检验,这就涉及到我们要提到的卡方检验。卡方检验是统计学中经典假设检验的组成部分,由统计学之父卡尔·皮尔逊发明,被称为20世纪最有*性的十大发明之一。卡方检验分四步:1、提出零假设:这里的零假设是行变量与列变量独立。2、选择和计算检验统计量,即Pearson卡方统计量,其数学公式这里不再提起。有关卡方检验的问题,我们会在后面的统计部分详细,我们在这里需要提一下,卡方公式中涉及到列联表的行数和列数,频数的观测值和期望值。那么,什么是期望频数(ExpectedCount)呢?期望频数指的是行列变量互相不相关的情况下的频数的均匀分布。求期望频数的方法非常简单,我们也将在后面有关统计学的部分中详细提到,此处略去不计。卡方统计量的大小与两个因素有关。一题名联表的单元格子数;二是观测频数与期望频数间的总差值。当列联表确定的时候,列联表的格子数亦确定,此时卡方统计量只与预测频数与期望频数间的总差值有关。当预测频数与期望频数总差值越大时,卡方统计量越大,表明行列变量的相关性越强;当预测频数与期望频数总差值越小时,卡方统计量越小,表明行列变量的相关性越弱。那么,如果进一步描述此卡方统计量的意义呢?卡方统计量近似服从卡方分布,故我们决定用一定的自由度和一定的显著性水平来框定卡方统计量的阈值。第三步,确定显著性水平和临界值显著性水平一般取0.05或0.01;卡方统计量服从(行数-1)*(列数-1)个自由度的卡方分布。因此,在行列数目和显著性水平确定的情况下,卡方临界值是可唯一确定的。第四步,结论和决策这一部分理解起来有些艰难,但对统计学的学生来说相当简单,即可以计算出相应卡方统计量的概率,如果小于显著性水平则拒绝原假设;反之,则不能拒绝原假设。这是非常常用的一种方法,即通过概率的方法。当然你也可以通过临界值的方法来做,即由行列数和显著性水平确定唯一的临界值,然后由软件计算出卡方统计量,比较二者。如果卡方统计量大于临界值,则行列变量有相关性;否则没有相关性。热心网友 时间:2023-10-15 10:08
5.2基本描述分析基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度。描述集中趋势的描述性统计量一般有均值、中位数和众数;描述离散程度的描述性统计量一般有方差、标准差和极差。5.2.1计算基本描述统计量在流中添加“Statistics”节点,打开设置面板。在“检查”中用户可以选择要进行统计的变量如下;然后在“统计量”中可以选择可统计的描述性统计量有哪些;在“相关”中可以设置与哪些变量进行简单相关分析(即求得Pearson简单相关系数)。Clementine数据基本分析(一)在“相关设置”中可以设置相关分析的一些参数如下。Clementine数据基本分析(一)下图为得到的相关分析及其它描述性统计分析的结果:Clementine数据基本分析(一)还可以生成符合要求的Filter。在Generate工具中,可以根据需要设置一定的相关性条件,然后生成Filter,这个功能很重要。5.2.2绘制散点图除了进行描述性统计分析外,还可以生成散点图查看数据间的要关性,添加节点“Plot”并打开设置面板。“X字段”中选择X轴变量;“Y字段”中选择Y轴变量。Overlay为交叠字段,你可以在Color、Size或Shape中选择Overlay字段即流失字段,从而在散点图中实现相应效果。“面板”表示可以绘制多个不同散点图反映Overlay变量;“动画”表示以动画方式显示多张散点图。交叠字段类型选项:无:表示不拟合回归直线;平滑器(Smoother):表示采用LOESS(Locallyweightediterativerobustleastsquaresregression)方法,拟合样本数据的回归线并显示;函数(Function):表示自德输入一个回归议程,回归线也显示。Clementine数据基本分析(一)结果如下:Clementine数据基本分析(一)5.4两分类变量相关性的研究两分类变量的相关性研究在实践中有广泛应用。做DataMining,对数据的类型应该极为敏感,几乎任何的统计分析或者数据挖掘,都要涉及这样一个问题:是分类型变量还是数值型变量。同理,前面我们使用相关和回归两个思维来对数值型变量的相关性进行了探讨,其中涉及到许多描述性统计量,既有描述数据集中趋势的,也有描述数据离散程度的。也涉及到散点图等图形。下面,我们将涉足分类变量。分类变量中最有名的分析,莫过于列联分析,但我们一开始并不介绍它。一般分析分为图形分析和数值分析,不止于两分类变量5.4.1两分类变量相关性的图形分析一、条形图将“Distribution”节点添加到流上。Distribution提供了两种输入字段的途径。“选定字段”选中,我们可以自定义哪些分类型字段可以进入;“所有标志”选中,则前面“Type”节点中的所有分类型字段都会进入分析。这里我们自定义“套餐类型”为我们的描述字段,然后在交叠字段中设置为“流失”。一般情况下,目标变量恒为交叠字段。”按“比例尺”表示将把频数最多的取值对应的条设置为最长,然后其它的条都会按比例设置,这样能更加清晰地看到不同取值的频数的差异;“按颜色标准化”,选中表示所有的条形都会被设置为相同长度,然后不同颜色比例表示目标变量取值不同时的情况,但“按颜色标准化”后,我们就不能比较不同取值下频数的差异了。Clementine数据基本分析(一)Clementine数据基本分析(一)二、Web图Web图的力量在沈浩老师挖挖双色球案例中得到充分的体现。Web图为我们提供了两种分类比较模型,一是计算两两分类变量间的相关性,一是计算多个分类变量对一个分类变量的相关性。将“Web”节点添加到流上,打开设置面板。网络:选中表示系统将计算两两分类变量间的相关性,在下面会让用户自定义进行两两分析的字段;导向网络:选中表示系统将计算多个分类变量对一个分类变量的相关性,选中后会让用户自定义分析变量和目标变量;仅显示真值标志:选中表示仅显示“流失”取值为“Yes”的网络,我们往往不进行这样的选择;得到如下的结果图。在结果图中,系统在标尺上有默认的两个边界,如图中为44和250,则表示Web图中最细线表示有频数44个,最粗线表示含频数250个。得到的Web图取值呈上下结构,其中下面的“Yes”和“No”是流失的两个取值,而上面的四个点是套餐类型的四个取值。其中,线条粗细程度代表着相关性程度。Clementine数据基本分析(一)Clementine数据基本分析(一)5.4.2两分类变量相关性的数值分析一、计算两分类变量的列联表以上我们通过两种图——Web图和条形图——对两分类变量的相关性进行了图形分析,除此之外,我们还可以对其进行数值分析。数值分析指的就是列联分析及相应的卡方分析。这里,我们使用的两分类变量仍然来自于电信客户数据的两个字段:套餐类型与客户是否流失。将Output卡中的“Matrix”节点添加到流中,打开设置面板。Matrix为我们提供了几种选择字段的方式。Slected:选中表示自定义列联表的行变量和列变量。我们在Rows中选择“套餐类型”,在Columns中选择“流失”。AllFlags:选中表示将对所有Flag型变量进行列联表分析,生成多个列联表。IncludeMissingValues:选中表示即使取值为缺失值,也被列入相关的频数内。列联表分析的是多个分类变量间的相关性,统计的就自然是频数了。如果想把含缺失值的样本剔除出去,也可以通过DataAudit节点进行相关操作。CellContents:Table-tabulations表示列联表各单元格(Cell)中统计的是样本的频数,一般的列联表都是进行频数统计;Function表示列联表各单元格为指定变量的分类描述统计量,应该地Field中指定相关变量,描述统计量也可以自定义选择。打开Appearance面板,我们简要介绍一下其中的功能设置。Highlighttop:表示频数最高的若干项数据以红字显示,具体的数额可以在后面设置;Highlightbottom:表示频数最低的若干项数据以显示,具体的数额可以在后面设置;Cross-tabulationcellcontents:Counts:表示显示观测频数;ExceptedValues:表示显示期望频数;Resials:表示显示残差;PercentageOfrow:表示计算行百分比;Percentageofcolumn:表示计算列百分比;PercentageOfTotal:表示计算总百分比。注意这三个百分比的不同表示及不同意义。Clementine数据基本分析(一)Clementine数据基本分析(一)二、行列变量的相关性分析通过对以上数据的分析,我们知道套餐类型与客户流失具有关联性,那么,这种关联性是此数据的偶然结果呢,还是总体即有这种关联性呢?从统计学上讲,这种分类变量间的关联性,是由于样本抽取过程中的随机误差导致的呢,还是系统本身固有的属性呢?为此,我们需要对此关联性做检验,这就涉及到我们要提到的卡方检验。卡方检验是统计学中经典假设检验的组成部分,由统计学之父卡尔·皮尔逊发明,被称为20世纪最有*性的十大发明之一。卡方检验分四步:1、提出零假设:这里的零假设是行变量与列变量独立。2、选择和计算检验统计量,即Pearson卡方统计量,其数学公式这里不再提起。有关卡方检验的问题,我们会在后面的统计部分详细,我们在这里需要提一下,卡方公式中涉及到列联表的行数和列数,频数的观测值和期望值。那么,什么是期望频数(ExpectedCount)呢?期望频数指的是行列变量互相不相关的情况下的频数的均匀分布。求期望频数的方法非常简单,我们也将在后面有关统计学的部分中详细提到,此处略去不计。卡方统计量的大小与两个因素有关。一题名联表的单元格子数;二是观测频数与期望频数间的总差值。当列联表确定的时候,列联表的格子数亦确定,此时卡方统计量只与预测频数与期望频数间的总差值有关。当预测频数与期望频数总差值越大时,卡方统计量越大,表明行列变量的相关性越强;当预测频数与期望频数总差值越小时,卡方统计量越小,表明行列变量的相关性越弱。那么,如果进一步描述此卡方统计量的意义呢?卡方统计量近似服从卡方分布,故我们决定用一定的自由度和一定的显著性水平来框定卡方统计量的阈值。第三步,确定显著性水平和临界值显著性水平一般取0.05或0.01;卡方统计量服从(行数-1)*(列数-1)个自由度的卡方分布。因此,在行列数目和显著性水平确定的情况下,卡方临界值是可唯一确定的。第四步,结论和决策这一部分理解起来有些艰难,但对统计学的学生来说相当简单,即可以计算出相应卡方统计量的概率,如果小于显著性水平则拒绝原假设;反之,则不能拒绝原假设。这是非常常用的一种方法,即通过概率的方法。当然你也可以通过临界值的方法来做,即由行列数和显著性水平确定唯一的临界值,然后由软件计算出卡方统计量,比较二者。如果卡方统计量大于临界值,则行列变量有相关性;否则没有相关性。