正在进行安全检测...

发布时间:1714227150   来源:文档文库   
字号:
数据挖掘:是从大量数据中发现有趣(非平凡的、隐含的、先前未知、潜在有用)模式,这些数据可以存放在数据库,数据仓库或其他信息存储中。 挖掘流程:
(1学习应用域(2)目标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类)6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展示(9)使用挖掘的知识
概念/类描述:一种数据泛化形式,用汇总的、简洁的和精确的方法描述各个类和概念,通过1数据特征化:目标类数据的一般特性或特征的汇总;2数据区分:将目标类数据的一般特性与一个或多个可比较类进行比较;3)数据特征化和比较来得到。
关联分析:发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件,通常要满足最小支持度阈值和最小置信度阈值。
分类:找出能够描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象类导出的模型是基于训练集的分析。导出模型的算法:决策树、神经网络、贝叶斯、(遗传、粗糙集、模糊集)
预测:建立连续值函数模型,预测空缺的或不知道的数值数据集 孤立点:与数据的一般行为或模型不一致的数据对象。
聚类:分析数据对象,而不考虑已知的类标记。训练数据中不提供类标记,对象根据最大化类内的相似性和最小化类间的原则进行聚类或分组,从而产生类标号。

第二章数据仓库
数据仓库是一个面向主题的集成的时变的非易失的数据集合,支持管理部门的决策过程。从一个或多个数据源收集信息,存放在一个一致的模式下,并且通常驻留在单个站点。数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。 面向主题:排除无用数据,提供特定主题的简明视图。集成的:多个异构数据源。时变的:从历史角度提供信息,隐含时间信息。非易失的:和操作数据的分离,只提供初始装入和访问。 联机事务处理OLTP:主要任务是执行联机事务和查询处理。
联系分析处理OLAP:数据仓库系统在数据分析和决策方面为用户或‘知识工人’提供服务。这种系统可以用不同的格式和组织提供数据。OLAP是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。 特征 OLTP OLAP 特征 OLTP OLAP 特征 操作处理 信息处理 汇总 原始,详细 汇总,统一
面向 事务 分析 用户 数千 数百
用户 知识工人 操作 主码索引 大量扫描
功能 决策支持 访问记录 数十个 数百万
DB 基于ER 星型,雪花 优先 高性能可用 高灵活
数据 当前最新 时间跨度 DB规模 100mb-gb 100gb-tb 访问 / 度量 事务 查询
DBA,办事员 日常操作
多维数据模型: 多维数据模型将数据看作数据立方体,允许从多个维度对数据建模和观察。包含维表和事实表。 最流行的数据仓库数据模型是多维数据模型,这种模型可以是星形模式事实表在中间,连接到多个维表雪花模式(星型的变种,某些维表规范化,分解到附加维表,以减少冗余事实星座模式(多个事实表共享维表

数据立方体:允许从多维对数据建模和观察。它由维和事实定义。关于一个组织想要保存记录的透视图和实体,每个维都有一个表与之相关联,成为维表事实表:包括事实的名称和度量,
1
以及每个相关维表的码。
方体Cuboid每个数据立方体。基本方体Base Cuboid存放最底层汇总。顶点方体Apex Cuboid最高层汇总,all数据立方体Data Cube给定维的集合,可以对维的每个可能子集产生一个方体。结果成为方体的格。
多维数据立方体:提供数据的多维视图,并允许预计算和快速访问汇总数据。 度量:数值函数,通过对给定点的各维-值对聚集数据,计算该点的度量值。 概念分层:映射序列,将底层概念映射到更一般的较高层概念。 OLAP操作: 上卷:上卷操作通过一个维的概念分层向上攀升或者通过维规约,在数据立方体上进行聚集。 下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。
切片和切块:切片对一个维进行选择。切块对两个以上维进行选择,定义子立方体。 转轴:可视化操作,转动视角。钻过:跨越多个事实表。钻透:钻到后端关系表。

数据仓库模型的不同类型:
1、企业仓库:收集了关于跨部门的整个组织主题的所有信息,跨越整个组织,因此是企业范围的。
2数据集市:是企业仓库的一个部门子集,它针对选定的主题,对于特定的用户是有用的,因此是部门范围的,其数据通常是汇总的。
3、虚拟仓库:虚拟仓库是操作数据库上视图的集合,易于建立,但需要操作数据库服务器具有剩余能力。

数据仓库的三层结构:
1、仓库数据服务器:使用后端工具(抽取、清晰、转换、装载、刷新)和实用程序由操作数据库和其他外部数据源提取数据,进行数据清理和变换并放入仓库底层

2OLAP服务器:直接实现对多维数据的操作,直接为商务用户提供来自数据仓库或数据集市的多维数据。ROLAP:多维数据操作映射到标准关系操作。MOLAP:多维数据视图映射到数组中.HOLAP:结合,历史数据ROLAP,频繁访问数据放到MOLAP.
3前端客户层:包括查询和报表工具、分析工具或数据挖掘工具。 1分析建立企业模型并映射到数据仓库概念模型;

2、逻辑模型的设计 3、物理模型的设计 数据仓库的设计:
OLAP建模:维表设计(维的变化,维表的共享,层次信息和分类信息的位置)事实表设计(事实表的特性,通用数据和专用数据事实表) 逻辑模型设计:
1 系统数据量估算; 2 数据粒度的选择;
3 数据的分割(到各自的物理单元单独处理)
4 表的合理划分(字段的更新频率和访问频率不一样——稳定性) 5 删除纯操作数据(“收款人”,增加导出字段(“销售总量”
元数据:描述数据的数据,定义数据仓库对象的数据。包括数据仓库的结构、操作元数据(数据血统、流通,监控信息)、用于汇总的算法、从操作环境到数据仓库的映射;关于系统性能的数据、商务元数据。
部分物化:选择性预计算各种方体子集或子立方体。

2

本文来源:https://www.2haoxitong.net/k/doc/51a1565d32687e21af45b307e87101f69f31fb58.html

《正在进行安全检测....doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式

相关推荐