生活中有许多数据,那数据分析是做什么的呢?面对浩繁数据的时候,仅仅依靠人类的大脑和双手无法从这些庞大的数据中获得宝贵的信息。即便可以,如果没有任何科学依据。也不能从中找出有效信息。因此,融合了统计技术和IT技术的“数据挖掘”便应运而生。
起初,数据挖掘紧跟“One to One”或“CRM(Customer RelationshipManagement)”的潮流,主要用于分析顾客行为、开发新客户、预测新产品和库存管理等,尤其被期待能够应用于市场营销领域。因此,逐渐出现了把顾客数据和poS数据存储到数据库(Data Warehouse) (下图)的方法:
预测商品普及率
除了预测商品价格以外,我们也可以运用依据平均值进行预测的方法检验其他数据,本文就采用预测商品普及率的样例介绍。这次选用的数据是一项问卷调查的结果。通过调代,收集数据,求出预测值后与实际值作比较。 日本内阁府经济社会综合研究所曾进行了一项关于国民消费趋势的调查,笔者抽取其中的关于每年普通家庭耐用品晋及率的数据做成表格
通过搭配使用数据库(Data warechouse)和数据挖掘,相关人员从市场营销领域获得了许多有效信息、知识、假设和课题。近年来,这种数据分析方法还被广泛地应用于财务、质量管理、医疗、科学研究等众多领域。
在进行实际的数据挖掘时,首先应该做什么准备?数据挖掘工具(道具)有S-PLUS、SAS、SPSS等各类软件和专业应用软件。在美国,把数据挖掘工具称为Siftware,大约有两百多种。在这些众多软件中,既包含具有综合性功能的软件。还包含具备强大单一功能的软件。例如,IBM的Intelligence Mining,SAS公司的EnterpriseMiner,SPSS公司的Clementine,数理系统股份公司的VMS(Visual Mining Studio).都是具有综合性功能的软件,而SPSS公司的Answer Tree,则是采用决策树预测理论的Siftware。
在简单了解了数据分析是做什么的之后,Excel网简单给初学者说几句重要的话,其实初学者完全没必要掌握复杂的操作,也不需要具备高深的专业知识,更下需花费高额费用。日常使用的Excel就是一款卓越的数据挖掘工具。让我们一起学习Excel吧!根据数据挖掘的目的、数据性质、规模和预算等情况,选择适当的工具完成工作。
如何发现偏差值
收集的数据中,经常出现比其他数据极端大或极端小的数值,即“偏差值”。偏差值又叫异常值、离群值、特殊值等.在数据挖掘中,发现偏差值并分析其产生的原因或理由非常重要。发现偏差值后需要将其排除,但同时也能从中发现到目前为止未能确认的有效信息或特征。偏差值也许是含有宝藏的原矿石,其中隐藏了发现新结果的可