数据挖掘
数据挖掘定义
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘步骤
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。
数据挖掘相关问题
1、数据仓库和数据挖掘的关系为何?
若将数据仓库比喻作矿坑,数据挖掘就是深入矿坑采矿的工作。数据挖掘就是从巨大数据仓库中找出有用信息的一种过程与技术。
2、olap能不能代替数据挖掘?
两者间是截然不同的,主要差异在于数据挖掘用在产生假设,OLAP则用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而数据挖掘则是用来帮助使用者产生假设。
3、数据挖掘在各领域应用为何?
数据挖掘在各领域的应用非常广泛,只要该产业拥有具分析价值与需求的数据仓储或数据库,皆可利用数据挖掘工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。
于销售数据中发掘顾客的消费习性,并可藉由交易纪录找出顾客偏好的产品组合,其它包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例;直效行销强调的分众概念与数据库行销方式在导入数据挖掘的技术后,使直效行销的发展性更为强大,例如利用数据挖掘分析顾客群之消费行为与交易纪录,结合基本数据,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化行销的目的;制造业对数据挖掘的需求多运用在品质控管方面,由制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效率。
近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,数据挖掘可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。财务金融业可以利用 Data Mining来分析市场动向,并预测个别公司的营运以及股价走向。数据挖掘的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是流程控制的效率。