20世纪80年代以来,随着数据库技术的发展和新应用的提出,数据挖掘技术应运而生。数据挖掘是从海量、随机、不完整和复杂的数据中提取潜在有用信息和知识的过程,涉及多种技术。通过数据挖掘技术处理大量的数据内容,极大地提高了人们信息处理的效率,获得大量有价值的信息和知识,帮助人们进行决策。本文描述了数据挖掘的七个过程和五种数据挖掘方法。
数据挖掘过程
数据挖掘过程分为7个部分:
1)定义挖掘目标
明确挖掘目标是数据挖掘的前提,也是最大限度发挥数据挖掘作用的关键。
2)数据采样
如何为数据挖掘目标选择样本?选择样本有三个原则,即及时性、可靠性和相关性。有必要确保所选样本数据是最新的、真实的并且与挖掘目标高度相关。同时要选择数据的简明性,数据要精挑细选。
3)数据探索
为了对数据进行进一步的分析和探索,需要对选取的样本数据进行探索、审查和处理,以保证预测质量。
数据挖掘主要包括相关性分析、异常分析、周期性分析、缺失值分析和样本交叉验证。
4)数据预处理
由于样本数据一般庞大,数据结构复杂,样本数据的维数过高,存在缺失值、重复记录、不一致等问题。样品的预处理也是必要的。
5)模式发现
数据预处理后,开始建立挖掘模型。在建模之前,考虑这次数据挖掘的应用是哪一个目标,针对具体的应用类别选择合适的算法。
6)模型构建
模型构建包括选择什么挖掘算法,模型构建的思路,具体操作流程。
7)模型评估
评估数据挖掘的结果,总结其缺点和优点,并进行持续改进。
采矿方法
数据挖掘方法:
1)分类和回归技术
这两种方法是数据挖掘中最常用的方法。为了充分利用分类技术,有必要预先定义数据的类别。回归分析是利用属性的历史数据来预测未来的趋势,找出数据之间的相关性。
2)聚类分析
一般来说,聚类分析就是根据数据的相似性进行分类。这是在没有使用明确数据类别的前提下进行的。
3)关联规则
应用最广泛的数据挖掘技术是从纷繁复杂的数据中发现事物之间可能的关联或联系,而这些关系是相当隐晦的。
4)计时模式
时间序列模型和回归模型有很多相似之处,但是时间序列模型不同于时间序列模型的属性值是随时间变化的。因此考虑了时间维度上复杂多变的数据之间的关系。
5)异常检测
也称为偏差检测,主要用于发现与大多数其他对象不同的异常或变化。异常检测在金融欺诈中发挥着巨大的作用。