Data mining
一、数据挖掘
1、数据挖掘概述
-数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。数据挖掘技术主要又分成“关联规则”、“时间序列”、“聚集”、“分类”、“估值”等几类
-数据挖掘大部分的价值在于利用数据挖掘技术改善预言模型
2、数据挖掘文化
-知识发现文化(KD):输出的是规则;
-预言模型文化(PM):输出的是预言模型;
共同点:
-两种文化输入的都是学习集;
-目的都是尽可能多地自动化数据挖掘过程;
-数据挖掘过程并不能完全自动化,只能半自动化;
3、数据挖掘过程
-计划/准备
-数据采集
-数据建模
-模型检验
4、数据挖掘系统
代 特征 算法 集成 计算 数据
1 独立应用 一个或多个算法 独立系统 单个机器 向量数据
2 数据仓库集成 多个算法 数据管理系统 计算机群集 对象,文本,连续媒体数据
3 预言模型集成 多个算法 数据管理和语言模型系统 网络计算 半结构化数据和WEB数据
4 移动数据联合 多个算法 数据管理,语言模型和移动系统 移动和各种计算设备 普遍存在的计算模型
5、数据挖掘发展趋势
-集成
第二代、第三代、以及第四代数据挖掘和预言模型系统将与数据仓库合并,以提供一个集成的系统来管理日常的商业过程。
-嵌入
另一方面,二、三、四代数据挖掘技术将不断发展和成熟,能够和各种应用集成,成为一种嵌入式的技术。
二、基本算法
1、信息论方法
-ID3方法
利用信息论中信息增益寻找数据库中具有最大信息量的字段,建立决策树的一个节点,并根据字段的不同取值建立树的分枝,在每个分枝子集中重复建树的下曾层节点和分枝的过程,建成决策树。
-IBLE方法
利用信息论的信息容量寻找数据库中的信息量从大到小的多个字段的取值建立决策规则树。
2、集合论方法
-粗集方法
-概念树方法
-AQ系列方法:覆盖所有正例,排斥所有反例的思路寻找规则
3、人工神经网络方法
-前馈网络
-含感知机、反向传输模型、函数式网络
-反馈式网络
-用于联想记忆和优化计算
-自组织网络
-用于聚类
-用于非线性系统构建数学模型
4、遗传算法
-模拟生物进化过程的方法
-用于寻找全局最优策略,最优解的有效方法
5、统计分析方法
-数据特征分析
-假设检验方法
-相关分析
-回归分析
-差异分析
-因子分析
-聚类分析
-判别分析
-时间序列分析
-可靠性分析
…
6、可视化技术
-可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。例如可把数据库中的多维数据变成多种图形,对于揭示数据中的状况、内在本质以及规律性起到很大作用。
7、运筹学方法
-用定量化方法为管理决策提供科学依据的学科
-线性规划方法
-非线性规划方法
-网络规划方法
-动态规划方法
-决策和对策方法
-排队论
-库存理论
-统筹方法
8、其它方法
-小波分析方法——信号分析和处理的新方法,适用于对经济数据的分析;
-蒙特卡罗方法,也就是随机模拟方法,应用面极广,算法简单,非常有效,缺点是精度不高,通常与其它方法相结合使用;
-分形市场理论——经济数据分析的新方法;
-统计物理学方法——运用物理分析和物理实验方法分析市场风险。
三、常用工具
1、SAS
-SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASESAS模块。在BASESAS的基础上,还可以增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS/FSP(快速数据处理的交互式菜单系统模块)、SAS/AF(交互式全屏幕软件应用系统模块)等等。
2、SPSS
-SPSS一共由十个模块组成,其中SPSSBase为基本模块,其余九个模块为AdvacedModels、RegressioModels、Tables、Treds、Categories、Cojoit、ExactTests、MissigValueAalysis和Maps,分别用于完成某一方面的统计分析功能,他们均需要挂接在Base上运行。除此之外,SPSS完全版还包括SPSSSmartViewer和SPSSReportWriter两个软件,他们并未整合进来,但功能上完全是SPSS的辅助软件。
3、STATA
-高效快速统计软件,功能强大,使用方便
4、S-PLUS
-S-PLUS就是从AT&T的S语言(Statisticallaguage,即统计语言)发展而来的,其语法和使用方式充满着数理统计的特点(比如说,向量、矩阵、数组等就是其最基本的元素),非常适合有数理统计背景的研究人员使用。
5、MIITAB
-MiiTab也是国际上流行的一个统计软件包,其特点是简单易懂,因而普遍认为该软件适合学生使用。
6、Statistica
-Statistica也是一个国际上常用的统计分析软件,他在操作方式上和SPSS非常类似,但运算速度极快,几乎是全工具栏操作,鼠标右键菜单真正可以做到一键启动,操作灵活简单,易学易用。它具有数理管理软件、统计分析软件、绘图软件和矩阵计算软件的功能,又在许多方面别具一格。
7、MATLAB
-MATLAB语言是当今国际上科学界(尤其是自动控制领域)最具影响力、也是最有活力的软件。它起源于矩阵运算,并已经发展成一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、便捷的与其他程序和语言接口的功能。几乎全能的软件。
-拥有几十个工具箱,包括数理统计学、数字信号处理、最优化、模糊数学、神经网络、金融学、时间序列分析、衍生产品、小波变换、模型预测工具、数据库、系统辨识、仿真等。
2条评论▼