设为首页 加入收藏 网站搜索 繁體中文 中国建站网 — 站长资源平台

Data Mining Technologies, Techniques, Tools, and Trends

来源本站整理 作者:佚名 时间:2006-8-1 21:04:30 该文得分0

  1. 引言
  
  1. 什么是数据挖掘 数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。数据挖掘的目的:提高市场决策能力;检测异常模式;在过去的经验基础上预言未来趋势等。 数据挖掘不同的术语和定义:data mining, knowledge discovery, pattern discovery, data dredging, knowledge, data archeology.
  2. 数据挖掘支持技术 多技术的综合,Figure 1-2
  3. 数据挖掘的概念和技术 数据挖掘的结果:分类;序列分析;数据依赖分析;偏差检测 Figure 1-3
  4. 数据挖掘的方向和趋势 Figure 1-4
  5. 本书组织 Figure 1-6
  6. 数据挖掘的发展
  Figure 1-10 Part I. Technologies for Data Mining
  
  2. 数据库系统
  * 体系:Figure 2-21,Figure 2-22,Figure 2-23
  
  1. 数据仓库
  * 数据库数据仓库与数据挖掘的关系:Figure 3-10,Figure 3-11,Figure 3-12
  
  1. 支持数据挖掘的其他技术
  * 统计推理:线性模型,非线性模型。线性回归用于预言;线性差别分析(linear discriminate ananlysis)技术用于分类;非线性技术用于估值;抽样
  * 机器学习:active learning; learning from prior knowledge; learning incrementally。概念学习(concept learning);神经元网络;遗传算法;决策树;归纳逻辑设计(inductive logic programming)
  * 可视化:可视化表达数据挖掘结果;将数据挖掘技术应用于可视化;使用可视化技术完善数据挖掘技术;使用可视化技术steer数据挖掘过程。
  * 并行处理:数据挖掘算法 + 并行处理技术 = 并行数据挖掘算法
  * 决策支持:Figure 4-6,Figure 4-7
  
  1. 数据挖掘的体系结构
  * 综合技术体系结构:Figure5-1(标准接口和接口定义语言),Figure5-3
  * 功能体系结构:Figure5-4,Figure5-5
  * 系统体系结构:ODBC/CORBA Figure5-8,Figure5-9,三层体系结构Figure5-10,封装对象:Figure5-11
  Part II. Techniques and Tools for Data Mining
  
  1. 数据挖掘过程
  * 数据挖掘项目: 需求;合适的数据;工具;人员;资金。
  * 例子
  o 超市分析交易数据,安排货架上货物摆布,以提高销售
  o 信用卡公司分析信用卡历史数据,判断哪些人有风险,哪些没有
  o 调查局分析行为模式,判断哪些人对受保护的信息具有潜在威胁
  o 药房分析医师的处方,判断哪些医师愿意购买他们的产品
  o 保险公司分析以前的客户记录,决定哪些客户是潜在花费昂贵的
  o 汽车公司分析不同地方人的购买模型,针对性地发送给客户喜欢的汽车的手册
  o 人才中心分析不同客户的工作历史,发送客户潜在的感兴趣的工作信息
  o 访问没有归类的竞争对手数据库,推断出潜在的归类信息
  o 教育学院分析学生历史信息,决定哪些人愿意参加培训,发送手册给他们
  o 核武器工厂分析历史核查信息记录,决定没有采用哪项预防措施将导致核灾难
  o 广告公司分析人们购买模式,估计他们的收入和孩子数目, 作为潜在的市场信息
  o 调查局分析不同团体的旅游模式,决定不同团体之间的关联
  o 医师分析病人历史和当前用药情况,不仅诊断用药而且预测潜在的问题
  o 税务局分析不同团体的交所得税的记录,发现异常模型和趋势
  o 调查局分析罪犯记录,推断哪些人可能会犯恐怖罪和大的谋杀罪
  
  数据挖掘应用领域 Figure 6-1
  * 数据挖掘的步骤:Figure 6-3,修剪结果:Figure 6-4;管理因素
  * 挑战:Figure 6-5
  * 用户接口方面:研究较少;可视化
  
  1. 数据挖掘的结果、方法和技术
  * 数据挖掘应用步骤:Figure 7 – 1
  * 数据挖掘的结果(任务,类型)
  
  o 分类
  o Estimation: 例子,分析消费模型,估计个人收入和孩子数目
  o 预言 例子,根据个人教育、当前工作、行业趋势,预言2005年工资
  o Affinity Grouping(关联规则,Correlation )
  o 聚集
  o 偏差分析deviation
  o 异常检测 anomaly:fraud detection ; medical illness detection …
  
  * 数据挖掘方法 Figure 7-3
  o 自顶向下top-down:以假设开始
  o 自下而上bottom-up:直接(supervised learning)- 提问;间接
  o 混合方法
  
  * 数据挖掘技术和算法
  o market basket analysis: 智能搜索,超市
  o 决策树:分类
  o 神经网络:聚集,偏差分析…
  o 归纳逻辑程序
  o link analysis, automatic cluster detection techniques ,nearest neighbor techniques
  o 遗传算法
  o 模糊逻辑
  o 约略集rough set
  o concept learning 概念学习
  o 简单的基于规则的推理
  
  1. 逻辑程序作为数据挖掘技术
  * 演绎逻辑程序
  * 归纳逻辑程序
  * ILP作为数据挖掘技术
  * ILP应用 Figure 8 –6
  
  1. 数据挖掘工具
  * 数据挖掘工具分类 Figure 9-1
  * 原型工具
  o 新的功能模型
  开发新的模型、框架:Stanford University; MITRE Corporation ; Hitachi Corporation ; Rutgers University 目的:综合数据挖掘和数据库管理 项目名称:Queryflocks (Stanford University,MITRE Corporation,Hitachi Corporation),开发支持数据挖掘查询方法和优化技术。 Rutgers University,数据挖掘查询语言
  o 新的信息服务
  挖掘不同类型的数据(多媒体) Text数据挖掘:Queryflocks;Cheng and Ng ,University of Arizona;Feldman,Bar-Ilan University in Israel Image数据挖掘:SKICAT,JPL(Jet Propulsion Lab);Clifton,MITRE Co.;University of British Columbia WEB数据挖掘:University of Michigan ;University of Minnesota
  o Scalability
  数据挖掘算法的可度量性:The Massive Digital Data System Project;Magnify Inc.;Thinking Machines Co.;SGI;IBM’s YorkTown Heights research laboratory
  o 结果的可理解性
  GTE Lab;Simon Fraser University;University of Massachusetts at Lowell
  o 大规模的项目
  IBM Quest project, AgarwalSimon Fraser University’s DBMINER, Han
  
  * 商业工具
 

[1] [2]  下一页

相关文章
广告赞助
网友评论

共有 0 位网友发表了评论,平均得分: 0 查看完整内容

用户名:

分 值:100分 85分 70分 55分 40分 25分 10分 0分

内 容:

(注“”为必填内容。) 验证码: 验证码,看不清楚?请点击刷新验证码