《数据仓库与数据挖掘教程(第2版)》

上网导航 2023-09-04 269 0条评论
摘要: 第2版前言数据仓库(Data Warehouse, DW)和数据挖掘(Data Mining, DM)是决策支持的两项重要技术。在数据仓库中利用多维数据分析来发现问题...

第2版前言数据仓库(Data Warehouse, DW)和数据挖掘(Data Mining, DM)是决策支持的两项重要技术。在数据仓库中利用多维数据分析来发现问题,并找出产生的原因,能从大量历史数据中预测未来;利用数据挖掘方法能从大量数据中获取知识。两项技术的共同特点是都需要利用大量的数据资源。数据仓库和数据挖掘是在20世纪90年代中期兴起的,经过十多年的发展,在技术和应用两个方面都得到了很大的提高。为了提高数据仓库的决策支持效果,近年来开展了对综合数据的数据立方体的压缩技术研究,以及对多维数据分析的MDX语言的推广。本书第2版增加了这两项内容。为了强化数据挖掘中神经网络与遗传算法两项实用技术,在第2版中把它们独立列为两章。在神经网络中,按从易到难的顺序将内容重新安排了一下,并增加了径向基函数网络RBF的内容。在遗传算法中增加了进化计算的内容,以便扩大读者的视野。本书仍保留了按数据仓库的形成过程来讲述其内容的方式,即从数据库到数据仓库以及对比,从联机事务处理OLTP到联机分析处理OLAP以及对比,用它们的对比来突出数据仓库决策支持的作用。按形成过程来讲述,既有利于掌握它们的连贯性,又有利于掌握数据仓库的新特点。

本书保留了依照数据挖掘的理论基础来讲述数据挖掘的方法:大家熟悉的决策树方法实质上是利用信息论中计算信息量的公式来选择属性构造决策树的结点;影响较大的粗糙集方法是典型的利用集合的覆盖原理;关联规则挖掘方法是对相关事务(项)的子集占整个集合的比例,大于阈值时建立关联规则的;在集合论方法中增加了影响最大的K-均值聚类方法。读者在懂得数据挖掘的方法的理论基础后,能够更好地掌握和使用这些方法。本书第12章由原来的第12章的“数据仓库与数据挖掘的发展”变为“知识挖掘”,这一章是全新的内容。第13章做了部分修改,增加了“Web日志分析与实例”一节。作者从事数据仓库与数据挖掘研究工作多年,在本书第12章中介绍了作者完成的项目--“软件进化规律的知识挖掘”,相信能对本科生有启发作用。掌握这些软件进化规律,一来能够帮助学员提高软件使用能力;二来能够引起他们的兴趣,再进一步去挖掘软件进化规律,促进软件进化。本书中也介绍了作者领导的团队完成的项目:IBLE决策规则树方法、FDD公式发现系统、遗传分类学习系统GCLS、变换规则的知识挖掘等。这些内容并不要求本科生掌握,关键在于启发他们如何去创新。这些内容更适合研究生学习和相关行业的工作人员参考。

建议在本科教学中,对信息论原理、集合论方法、神经网络和遗传算法,只讲公式和应用,概略地说明原理的深层内容和公式的推导。这些知识的详细内容适合于研究生教学。王珊教授曾说过:我觉得数据仓库或者数据挖掘,有时候挖掘出来的东西并不是很有用的,可能要经过很长时间,也许在某些情况下得到一个非常好的结果,能够给领导者一个启示。但是不会像宣传的那样,我们今天建立了数据仓库系统,明天就能够解决商业竞争中的很多问题,就能取得很大的效益。而且,领导者的素质也是一个重要因素。领导者能不能发现这些问题,技术人员给他的新提示他能不能接受,数据挖掘对他是否有效,等等。这些问题都影响了数据仓库和数据挖掘的效果。这段话说明了一个问题,数据仓库和数据挖掘的应用比技术有时显得更重要。作者也希望学员在学习这门课程时,除学习原理与技术外,还要加强应用能力的锻炼,即通过计算机去亲自实现它,体会它的真正价值。欢迎广大读者与作者进行交流,为促进我国数据仓库和数据挖掘的发展而共同努力。陈文伟2011年9月于广州第1版前言数据仓库(data warehouse, DW)是利用数据资源提供决策支持。它比利用模型资源辅助决策更有效,而且辅助决策的范围更宽。

由于在现实中,数据大量存在,而且在迅速地增长,只要将面向应用(事务驱动)的数据库重新组织转变为面向决策分析的数据仓库,就可以帮助决策者从不同的视角,通过综合数据分析掌握现状;通过多维数据分析发现各种存在的问题;通过对数据层次的钻取找出问题产生的原因;通过历史数据预测未来。由于数据仓库辅助决策效果明显,数据仓库已经从20世纪90年代中期兴起,经过几年的发展,迅速形成了潮流。数据挖掘(data mining, DM)是从数据中挖掘出信息和知识,是从人工智能的机器学习(machine learning, ML)中发展起来的。机器学习是让计算机模拟人的学习方法获取知识。机器学习中的大量学习方法已经引入到数据挖掘中。数据挖掘也是20世纪90年代中期兴起的。正是由于数据挖掘具有获取知识的能力,目前各数据仓库均将数据挖掘作为数据仓库的前端分析工具,用于提高数据仓库的决策支持能力。数据仓库、数据挖掘和联机分析处理(on line analytical processing, OLAP)结合起来的新决策支持系统是以数据驱动的决策支持系统。而传统决策支持系统(decision support system, DSS)是以模型和知识驱动的决策支持系统,是由模型库系统、知识库系统、数据库系统和人机交互系统组成的。

新决策支持系统利用的是数据资源,而传统决策支持系统利用的是模型资源和知识资源,它们两者辅助决策的方式和效果均不相同。新决策支持系统并不能代替传统决策支持系统,它们是相互补充的。新决策支持系统与传统决策支持系统结合起来形成的综合决策支持系统将是决策支持系统发展的新方向。数据仓库、数据挖掘、联机分析处理等结合起来也称为商业智能(business intelligence, BI) 。商业智能是一种新的智能技术,区别于人工智能(artificial intelligence, AI)和计算智能(computational intelligence, CI) 。人工智能采用的技术是符号推理,符号推理过程形成了概念的推理链。计算智能采用的技术是计算推理,模拟人和生物的模糊推理、神经网络计算和遗传进化过程。商业智能是从数据仓库和数据挖掘中获取信息和知识,对变化的商业环境提供决策支持。商业智能是目前企业界正在大力推广的知识管理(knowledge management, KM)的基础。作者于1997年6月30日在《计算机世界》报上发表了一组关于数据开采(数据挖掘)的文章,最早向国内学者介绍了数据挖掘概念和技术。

作者又于1998年6月15日在《计算机世界》报上发表了一组关于数据仓库与决策支持系统的文章,在介绍基于数据仓库的决策支持系统上,提出了将基于数据仓库的决策支持系统和传统决策支持系统结合的综合决策支持系统,在国内产生了一定的影响。本书的特点是从数据仓库和数据挖掘的兴起与演变来说明它们的本质,通过例子来解释它们的原理,既系统地介绍了数据仓库和数据挖掘的概念和技术,又介绍了它们之间的关系,以及今后的发展。在数据仓库的章节中,重点介绍数据仓库原理、联机分析处理、数据仓库设计与开发、数据仓库的决策支持应用。在数据挖掘的章节中重点介绍信息论方法、集合论方法、公式发现、神经网络和遗传算法,这些数据挖掘方法在现实中应用较广泛。由于数据挖掘的基础理论涉及面较宽,建议在本科生教学中对信息论原理和集合论方法只讲定义和例子,对神经网络和遗传算法只讲公式和应用,省略原理的深层内容和公式的推导。这些省略的内容适合研究生教学。由于作者从事数据仓库与数据挖掘工作多年,并得到过国家自然科学基金项目的资助。在书中还介绍了作者领导的课题组完成的IBLE决策规则树方法、FDD公式发现系统、遗传分类学习系统GCLS等。本书也包含了作者提出的综合决策支持系统概念和可拓数据挖掘概念及理论,这些内容适合研究生学习和参考。欢迎和广大读者进行交流,共同为促进我国数据仓库和数据挖掘的发展而努力。参加本书录入的有毕季明、廖建文、赵健、徐怡峰、田昊等同志,在此表示感谢!陈文伟2006年5月29日于广州

more >

文章版权及转载声明:

作者:上网导航本文地址:https://www.90xe.com/post/3628.html发布于 2023-09-04
文章转载或复制请以超链接形式并注明出处技术导航

分享到:

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏