做外卖在哪个网站做好网站域名跳转代码

当前位置: 首页 > news >正文

做外卖在哪个网站做好,网站域名跳转代码,营销策划师,上海搬家公司电话附近197、数据仓库和传统数据库区别 由于历史数据使用频率过低#xff0c;导致数据堆积#xff0c;查询性能下降#xff1b;用于查询分析#xff0c;涉及大量的历史数据#xff0c;数据仓库中的数据一般来日志文件和事务 数据库是跟业务挂钩的#xff0c;数据库不可能装下一…197、数据仓库和传统数据库区别 由于历史数据使用频率过低导致数据堆积查询性能下降用于查询分析涉及大量的历史数据数据仓库中的数据一般来日志文件和事务 数据库是跟业务挂钩的数据库不可能装下一个公司所有的数据因此数据库的是个设计通常只针对一个应用而设计的数据仓库是依照分析需求、分析维度、分析指标进行设计的 数据库的操作一般是OLTP是针对具体的业务在数据库中的联机操作数据仓库的操作一般是OLAP是针对某些主题的里哦是数据进行分析支持管理决策 数据库中主要存放的是一些在线的数据数仓中主要存放的是历史数据并且存放的数据要比数据库多 数据库中主要用于处理业务数仓中主要用于数据分析 数据库的设计就是避免冗余数仓中会专门引入冗余减少后面进行的大量的join操作 补充数仓是什么 数仓是一个面向主题的、集成的来自不同的数据源、非易失一般不会进行删除和修改并且随时间变化数据不会变而是数据随着时间会不断增多的数据集合主要用于存储历史数据然后通过分析整理进而提供数据支持和辅助决策 198、数仓为什么要分层 在管理数据的时候能对数据有一个更加清晰的掌控 优点清晰的数据结构数据血缘追踪减少重复开发把复杂的问题简单化屏蔽原始数据的异常影响 ODS原始数据层直接接入业务库、埋点日志、消息队列等是数仓的准备区 DWD数据细节层业务层和数据仓库层的隔离层保持和ODS层相同颗粒度进行数据清洗和规范化操作去空、脏数据 DWM数据中间层在DWD基础之上进行轻微的聚合操作计算出相应的统计指标聚合结果会生成中间表 DWS数据服务层在DWM基础上整合汇总成一个主题的数据服务层汇总结果是宽表 ADS数据应用层供数据分析和挖掘使用用于报表 199、数仓建模常用模型吗?区别、优缺点? 三范式建模immon在数据仓库的逻辑需要从业务系统的数据模型中的逻辑模型中抽象实体实体的属性实体的子类实体的关系等 范式建模最大的优点是从关系型数据库的角度出发结合了业务系统的数据模型能够实现数据仓库的建模但是这种方法只是限定在关系型数据库之上限制了整个数据仓库模型的灵活性 维度建模Kimball按照事实表、维度表来构建数据仓库、数据集市星型模型应运而生 维度建模步骤 1、选择业务过程 2、声明粒度在同一张事实表中必须具有相同的粒度不同的粒度数据建立不同的事实表一般从最细的粒度开始设计 3、确认维度维度表是业务分析的入口维度表中不能出现重复数据应该使主键唯一 4、确认事实事实表是用来度量的事实表中每一行对应一个度量每行中的数据是一个特定级别的细节数据维度建模的核心原则之一就是同一事实表的所有度量必须具有相同粒度 补充星型模型和雪花模型 雪花模型去除了冗余设计复杂可读性差关联的维表很多查询效率很低但扩展性好多个维表没有和事实表直接相连而是通过其他的维度表间接的连接在事实表上 星型模型冗余度高设计简单可读性高关联的维表很少查询效率高可扩展性低当所有的维表都是和事实表直接相连的时候整个图形看上去就是一个星星不存在渐变维度所以一定有数据冗余不需要和外表进行关联进行查询和分析因此效率高 区别 星型模型和雪花模型最根本的区别就是维度表是直接连接到事实表还是其他维表上 星型模型的数据冗余所以很多查询统计不需要做外部连接 雪花模型遵从三范式去掉了冗余有些统计过程需要通过表才可以产生 补充数仓具体实施步骤 1、进行业务调研需要了解业务系统收集分析师运营人员对数据或者报表的需求 2、数据域划分数据域是指面向业务分析将业务过程或者维度进行抽象的集合 3、构建总线矩阵明确业务过程所属的数据域明确业务过程域与维度的关系 4、规范定义定义指标原子指标、派生指标 5、明细模型设计包括DIM和DWD 6、汇总模型设计DWS和ADS 7、代码开发和运维监控 200、维度表和事实表的区别? 维度表是对数据进行分析时候所用的一个量 事实表是数据聚合后依据某个维度生成的结果表是具体的统计表 举例销售统计表一个事实表价格表和销量表是一个维度表 事实表用来存储事实的度量以及指向各个维的外键值维表用来保存该维的元数据 补充缓慢变化维 一些维度表的数据不是静态的而是会随着事件而缓慢变化 SCD的解决方案 拉链表数据仓库系统的目标之一就是正确地表示历史记录典型代表就是拉链表保留历史的数据并插入新的数据 拉链表不存储冗余的数据只有某行的数据发生变化才需要保存下来相比每次全量同步会节省很多空间 201、OLTP和OLAP oltp联机事务处理是传统的关系型数据库的主要应用是基本的、日常的事务处理 olap是联机分析处理强调数据分析数据一般来自数仓用于数据挖掘、BI、复杂计算以及财务分析 202、增量表、全量表和拉链表 增量表记录根本更新周期内的新增的数据在原表的基础之上新增本周期产生的数据 全量表记录更新周期内的全量数据 拉链表记录数据的历史数据记录数据从开始一致到当前辩护的所有信息一般有结束之间和开始时间如果发生变化就修改当前数据䣌结束时间 203、数据同样存在 hdfs为什么 hbase 支持在线查询 1)HBase的存储机制首先HBase的机制是数据先写入到内存中当数据量达到一定的量 再写入磁盘中 在内存中是不进行数据的更新或合并操作的只增加数据这使得用户的写操作只要进入内存中就可以立即返回保证了HBase I/O的高性能。 其次在内存中的数据是有序的如果内存空间满了会刷写到HFile中而在HFile中保存的内容也是有序的。HFile文件为磁盘顺序读取做了优化按页存储。是顺序写入而不是随机写入所以速度很稳定这样保持稳定的同时加快了速度。 2)HBase底层架构HBase底层是LSM-Tree HTable(Region分区) Cache——客户端可以直接定位到要查数据所在的HRegion Server服务器然后直接在服务器的一个Region上查找要匹配的数据并且这些数据部分是经过Cache缓存的。 3)HBase的读取读取速度快是因为它使用了LSM树型结构。磁盘的顺序读取速度很快。HBase的存储结构导致它需要磁盘寻道时间在可预测范围内而关系型数据库即使有索引也无法确定磁盘寻道次数。而且HBase读取首先会在缓存中查找它采用了LRU(最近最少使用算法)如果缓存中没找到会从内存中的MemStore中查找只有这两个地方都找不到时才会加载HFile中的内容而我们也提到读取HFile速度会很快因为节省了寻道开销。 (3) 问题扩展HBase的概念和特点可做扩展回答再根据特点去回答优劣和核心功能再延伸到适用场景。 HBase概念HBase是建立在HDFS之上,提供高可靠性的列存储实时读写的数据库系统。它介于Nosql和关系型数据库之间仅通过主键和主键的Range来检索数据仅支持单行事务。主要用来存储非结构化和半结构化的松散数据。HBase的优缺点优点高容错性高扩展性。key/value存储方式面对海量数据也不会导致查询性能下降。相对于传统行式数据库在单张表字段很多的时候可以将相同的列存到不同的服务实例上分散负载压力。缺点架构设计复杂且使用HDFS作为分布式存储所以在存储少量数据时它也不会很快。HBase不支持表关联操作数据分析是HBase的弱项。HBase只部分支持ACID只支持单行单次操作的事务。 (4) 综合项目中使用清楚HBase和其他数据库的区别清楚HBase优势劣势在哪种场景下使用哪种技术当所存储数据需要快速插入查询时使用HBase所以Storm或Sparksteaming常常存储入HBase。当数据需要大量聚合运算计算分析结果时使用Hive存储所以Hive是数仓etl的常用工具。