收集的数据中,经常出现比其他数据极端大或极端小的数值,即“偏差值”。偏差值又叫异常值、离群值、特殊值等.在数据挖掘中,发现偏差值并分析其产生的原因或理由非常重要。发现偏差值后需要将其排除,但同时也能从中发现到目前为止未能确认的有效信息或特征。偏差值也许是含有宝藏的原矿石,其中隐藏了发现新结果的可能性。发现偏差值后,请一定找出原因,这也是Excel数据分析的一个很好的经验。
用Excel预测牛奶的期望价格
这次使用“食品”检验数据,我们采取用Excel预测牛奶的期望价格的案例。首先求解三种乎均值,然后和实际的牛奶价格作比较。下图的数据与上一篇文章《用Excel预测女衬衫的期望价格》中的女衬衫的数据相似,是消费者购买l升牛奶时“认为偏高的价格”和”认为偏低的价格&
从大量数据中发现偏差值的方法之一是建立数据分布图,从视觉上判断偏差值,然后双击数据(点)。如下图所示,弹出“数据点格式”。在“数据标志”中选择“值”,则图表中显示数据(点)名称(数据标签)。
其他参考资料:异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。
从少量样本中挖掘重要信息
数据挖掘是一种从信息化社会的庞大数据中,挖掘宝藏的方法和程序,那么怎样从少量样本中挖掘重要信息呢?在面对许多数据时,怎样使用最佳的方法进行分析至关重要;若没有合适的数据,则必须从收集数据着手。此时,你会因为收集庞大的数据非常困难而放弃数据挖掘吗? 首先,请大家检验一项问卷调查的结果.有本书叫《日本的开关》 (庆应义