中建西部建设股份有限公司网站中国建筑设计研究院有限公司
- 作者: 五速梦信息网
- 时间: 2026年04月20日 03:48
当前位置: 首页 > news >正文
中建西部建设股份有限公司网站,中国建筑设计研究院有限公司,装饰装修公司排名前十强,关键词的优化方案一、数据仓库和数据挖掘概述
1.1 数据仓库的产生
数据仓库与数据挖掘#xff1a; 数据仓库和联机分析处理技术(存储)。数据挖掘#xff1a;在大量的数据中心挖掘感兴趣的知识、规则、规律、模式、约束(分析)。数据仓库用于决策分析#xff1a; 数据仓库#xff1a;是在数…一、数据仓库和数据挖掘概述
1.1 数据仓库的产生
数据仓库与数据挖掘 数据仓库和联机分析处理技术(存储)。数据挖掘在大量的数据中心挖掘感兴趣的知识、规则、规律、模式、约束(分析)。数据仓库用于决策分析 数据仓库是在数据库已经大量存在的情况下为了进一步挖掘数据资源、为了决策需要而产生的并不是‘大型数据库’。数据仓库与数据库的区别
数据库数据仓库事务处理决策分析保持事务处理的当前状态保存过去和当前的数据大量数据库的集成
1.2 数据挖掘的基本概念 数据挖掘定义 数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。几层含义 数据真实、大量、含噪声。发现的是用户感兴趣的知识。发现的知识可接受、可理解、可运用。不要求发现全部的知识仅对特定的问题。数据挖掘的一个过程 数据挖掘的功能 关联分析(描述) 反映一个事件和其他事件之间依赖或关联的知识。广泛用于购物篮、事务数据分析。聚类分析(描述) 最大化类内的相似性和最小化类间的相似性(无监督的学习方法)找出数据集中的共性与差异将具有共性的对象聚合在相应的类中。无指导的观察室学习没有预先定义的类分类挖掘(预测) 分类同类事物共同性质的特征型知识不同事物之间的差异型特征知识。(有监督的学习方法) 类别特征联系决策树有指导的事例式学习有预先定义的类过程分析训练集中数据为每个类别建立分类分析模型用这个分类分析模型对DB中的其他记录进行分类。聚类与分类的区别孤立点分析 对差异和极端特例的描述。孤立点事物偏离常规的异常现象。没有孤立点分析算法。异常检测通过构建正常行为模型(特征描述)来检测与特征描述严重偏离的新的模式。
二、数据仓库的基本概念
2.1概念
数据仓库Data Warehouse是在数据库已经大量存在的情况下为了进一步挖掘数据资源为了决策需要而产生的它并不是所谓的“大型数据库
2.2数据仓库的两个主要作用 存储经过加工处理的决策需要的数据 查询决策分析的依据
2.3数据仓库的关键特征
面向主题从面向应用到面向主题集成的需要使用数据清洗、数据继承来处理数据随时间而变化的只进行两种数据访问数据的初始装载、查询操作不容易丢失的包含时间元素
2.4为什么要建立数据仓库
事务型处理(DB) 日常事务处理处理细 节 信 息分析型处理(DW) 用于管理员的决 策 分 析处理宏 观 信 息 区别 2.5数据仓库与数据挖掘的关系
区别 数据仓库存储技术提供对不同决策的数据和信息。数据挖掘分析技术从数据中挖掘信息。联系 成功的数据挖掘通过访问正确的、完整的、集成的数据进行深层次的分析。数据仓库并不是数据挖掘的必要条件 DM不一定建立在DW之上,DW不是实施DM的必要条件。在开发DW过程中所进行的数据集成、清洗、准备才使得DW对DM有重要的价值。
2.6数据立方体
- 概念分层(单个维) 定义定义一个映射序列将低层概念映射到更一般的高层概念中。比如在城市-省份-国家-州维度中我们可以从中选取一个维度进行考查。 2.方体的格(维的集合) 定义给定一个维的集合将在不同汇总级别上给出的数据立方体。0维方体存放最高层的汇总顶 点 方 体 最底层汇总基 本 方 体 2.7 数据仓库的三级模型 1.概念模型 首先将现实世界抽象为概念模型、然后再用计算机世界的模型和语言描述。数据仓库的第一层、最高层数据仓库用信 息 包 图表示概念模型。信息包图 eg确定维度、级别(类别、概念分层、将维度细分)、度量(指标与事实)。 2.逻辑模型 数据仓库第二层三种表示星型、雪花模型、事实星座模型。几个基本概念 维视角、观点eg时间维度、产地维度。维表每一维都有一个表与之对应。事实数字度量。事实表事实的名称或度量、以及每个相关维表的关键字。星型模型 事实表在中心周围围绕地连接维表。 通常由三种逻辑模型表示法星型模型雪花模型事实星座模型雪花模型 相当于增加了外键维护表与表的关系减少了冗余。 事实星座模型 对主题的数据仓库需要多个事实表共享维表。 3.物理模型 定义是逻辑模型在数据仓库中的实现。主要进行数据存储结构、存储策略、索引策略、存储分配优化。两种常见的存储结构 分布式存储 物理上分布、逻辑上统一。集中式存储 通过FC(光纤通信)交换机来直接访问所有数据而不需要其它节点。 2.8DW的设计 数据仓库设计与数据库设计的区别(** )DW设计的原则 以数据驱动为中心数据驱动和需求驱动相结合数据驱动根据当前数据基础和质量进行数据源分析需求驱动根据业务方向需求进行调整。 三、联机分析处理 建立数据仓库的目的是要为决策提供必要的支持。 3.1 OLAP概述
- OLAP的基本概念 定义联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。核心技术是维OLAP是多维数据分析工具的集合。OLAP与数据仓库的多维数据组织管理正好形成相互结合相互补充的关系。
- 几个关系 OLAP与DW 数据仓库侧重于存储和管理面向主题的数据。OLAP侧重于数据仓库中的数据分析并将其转换成辅助决策的信息。 多维数据分析这与数据仓库的多维数据组织管理相互结合、相互补充。使得DW能快速分析查询从而能有效的联机分析。OLAP(联机处理分析)与OLTP() OLTP关系型数据库的主要应用增删改查。事务型OLAP数据仓库的主要应用分析与决策并提供查询结果。分析型 OLAP的数据来自于OLTP数据库 3. OLAP的特性 快速性在5s内对用户大大部分分析要求作出反应。可分析性能处理任何逻辑分析和系统分析。多维性关键属性提供数据的多维视图和分析信息性应能及时获取信息管理大容量信息。 3.2 OLAP的分析方法 切片 选定一个二维子集切出一个平面 切块 选定一个三位子集切出立方体 旋转 改变一个报告显示的维方向 钻取 根据维层次改变数据的粒度 1.相关概念 2. 切片 广义某一维上一个维成员。降1维狭义选取一个二维子集。降n-2维
- 切块 广义在某一维上选定某一区间的维成员没有降维 比如考察2021年1月到2021年6月的信息。狭义选取一个三维子集。降n-3维
- 钻取(某个维的层次性) 5. 旋转 3.3 OLAP的数据组织 ROLAP rolap是基于关系型数据库的OLAP 利用关系数据库存储、管理、聚合数据。良好扩展性可以简单增加新维星型模型响应时间长。 MOLAP MOLAP是基于多维数据库存储方式建立的OLAP采用类似多维数组的结构 多维数据库预综合的数据快速索引。响应速度快。增加新的维度需要重新建立数据库。 HOLAP HOLAP是混合型的 常用维多维数据库存储。不常用的维用ROLAP存储。 ROLAP和MOLAP的对比 数据存储速度ROLAP需要将SQL语句转化为多维存储语句临时拼合为多维数据立方体因此ROLAP的响应时间较长维度变化的适应性MOLAP增加新的维度则多维数据库通常需要重新建立ROLAP对于维表的变更有很好的适应性 四、数据挖掘的基本概念 4.1 什么是数据挖掘 定义从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。
- 上一篇: 中建设计集团网站跨境电商公司招聘岗位及要求
- 下一篇: 中交建设集团天津公司网站管理信息系统平台
相关文章
-
中建设计集团网站跨境电商公司招聘岗位及要求
中建设计集团网站跨境电商公司招聘岗位及要求
- 技术栈
- 2026年04月20日
-
中建材建设有限公司网站现在公司做网站还需要域名吗
中建材建设有限公司网站现在公司做网站还需要域名吗
- 技术栈
- 2026年04月20日
-
中建八局土木建设有限公司网站wordpress单页淘客源码
中建八局土木建设有限公司网站wordpress单页淘客源码
- 技术栈
- 2026年04月20日
-
中交建设集团天津公司网站管理信息系统平台
中交建设集团天津公司网站管理信息系统平台
- 技术栈
- 2026年04月20日
-
中交建设集团网站建设明星网站的目的论文
中交建设集团网站建设明星网站的目的论文
- 技术栈
- 2026年04月20日
-
中交路桥建设有限公司网站重庆丰都建设局网站
中交路桥建设有限公司网站重庆丰都建设局网站
- 技术栈
- 2026年04月20日
