电子商务网站建设体会html5从入门到精通

当前位置: 首页 > news >正文

电子商务网站建设体会,html5从入门到精通,坪地做网站,网站开发项目需求方案第一章 大数据计算系统概述 1.1 大数据计算框架概述 Hadoop Hadoop的运行过程#xff08;5个步骤#xff1f;#xff09; split map shuffle reduce output Hadoop的详细运行过程#xff1f;#xff08;4个大过程#xff0c;6662#xff09; 创建…第一章 大数据计算系统概述 1.1 大数据计算框架概述 Hadoop Hadoop的运行过程5个步骤 split map shuffle reduce output Hadoop的详细运行过程4个大过程6662 创建新Job实例并调度HDFS资源启用MapTask执行map函数启动ReduceTask执行reduce函数JobClient轮询获知任务完成 Job 和 Task的区别 作业JobMapReduce程序指定的一个完整计算过程 任务TaskMapReduce框架中进行并行计算的基本事务单元 一个作业Job在执行过程中可以被拆分为若干Map和Reduce任务Task完成 MapReduce调度器三种默认的是什么执行的作业顺序 FIFOFairCapacity Map后的2次排序分别用的什么排序算法对象是文件还是多个文件 文件内部快速排序Sort 多个文件归并排序Merge MapReduce任务处理过程六个步骤 待处理的大数据 划分 提交给主节点 传送给map节点做一些数据整理工作(combining) 传送给Reduce节点 失效结点处理主节点失效会怎样工作节点失效呢 主节点失效一旦某个任务失效可以从最近有效的检查点开始重新执行避免从头开始计算的时间浪费。 工作节点失效如果主节点检测工作节点没有得到回应则认为该工作节点失效。主节点将把失效的任务重新调度到其它工作节点上执行。 MapReduce 1.0缺点主要在哪二个方面的哪三个方向 JobTracker 是 Map-reduce 的集中处理点存在单点故障。 JobTracker 完成了太多的任务造成了过多的资源消耗 YARN引入了什么概念有哪三个主要部分它们都是干什么的 ApplicationMaster头头申请资源和分配任务 ResourceManager小头监控头头和下属资源分配和调度 NodeManager下属资源管理接受命令 1.2 大数据批处理计算框架 Spark RDD概念全称是可分区吗它放在主存还是内存 弹性分布式数据集 一个RDD的不同分区可以在集群中的不同节点上进行并行计算 放内存 RDD的操作分为哪三种类型用于 actiontransformationpersistence RDD的执行过程怎么创建怎么产生不同的RDD怎么输出到外部数据源优点是 读入外部数据源 transformation action RDD高效的原因怎么容错在磁盘还是内存存放数据可以是什么 数据复制和记录日志 中间持久化到内存中间数据在内存中的RDD操作中传递 存放对象可是Java对象 基本概念 DAG是什么的简称Executor是运行在哪的一个进程负责运行什么?应用作业阶段任务的关系和它们分别干什么用 有向无环图 运行在工作节点WorkerNode的一个进程负责运行Task 应用作业阶段任务 架构设计三层分别是英文和中文名第三层里有什么两种Node分别是基于什么存储结构 Driver ProgramSparkContext Cluster Manager Worker NodesExecutor(Task) HDFS、HBase Spark运行代码的7个步骤 ① Driver解析生成Task ② Driver向Cluster Manager申请资源 ③ Cluster Manager分配资源和节点并创建Executor ④ Executor向Driver注册 ⑤ Driver将代码和文件传给Executor ⑥ Executor运行Task Shuffle操作宽依赖和窄依赖分别是什么情况 宽依赖一对多和多对多 窄依赖多对一或一对一 阶段的划分划分的依据哪种依赖利于优化 逆流划分遇到窄依赖就做合并遇到宽依赖就断开 RDD运行过程4个阶段干了什么 ① 创建RDD对象 ② 创建DAG也即RDD之间的依赖关系再分解为多个Stage每个Stage中有多个Task ③ Task被TaskScheduler分给WorkerNode上的Executor执行 ④ Worker执行Tasks RDD容错机制维护用来重建的信息 RDD维护可以用来创建丢失分区的信息 Spark中的存储机制RDD缓存存在哪如何从磁盘取得分区对应的数据块Shuffle数据存在哪 RDD缓存包括基于内存和磁盘的缓存 内存缓存哈希表存取策略 Shuffle数据的持久化必须是在磁盘上进行缓存的 第二章 大数据管理系统 大数据管理系统一 概念 数据库的定义 数据库是长期储存在计算机内、有组织的、可共享的数据集合。 DBMS全称主要功能DDL是什么DML是什么 Database Management System 数据定义语言定义数据库中的数据对象。 数据操纵语言操纵数据实现对数据库的基本操作。 DBS包括什么 数据库、数据库管理系统、应用系统、数据库管理员、用户 数据库存储结构 RAID是什么由什么组成 磁盘冗余阵列 由若干同样的磁盘组成的阵列 文件内记录的组织5种记录的组织方式它们分别怎么记录的 堆文件组织随便放 顺序文件组织升序或降序的放指针链结构 散列文件组织某个属性值通过哈希函数求得的值作为存储地址 聚类文件组织有联系的记录存储在同一块内
索引技术 索引是什么?它是文件吗索引分类两大类主索引是什么聚类索引和非聚类的差别聚类索引中的三种索引是索引的更新删除和插入分别对于稠密索引和稀疏索引是什么样的操作 独立于主文件记录的一个只含索引属性的小的文件 两大类有序索引 vs 散列索引 聚类非聚类索引区别在于是否与主文件顺序一致 稠密索引、稀疏索引、多级索引 删除 对稠密索引删除相应的索引项 对稀疏索引如果被删记录的索引值在索引块中出现则用主文件被删记录的下一个记录的查找键A替换。若A已出现在索引块则删除被删记录的对应索引键。 插入 对稠密索引且查找键未在索引块出现在索引中插入。 对稀疏索引若数据块有空闲放得下新数据不用修改索引否则加入新数据块在索引块中插入一个新索引项 事务 定义由什么组成?事务的ACID性质 是DBMS中一个逻辑工作单元通常由一组数据库的操作组成 原子性(Atomic) 一致性(Consistency) 隔离性(Isolation) 持久性(Durability) I/O并行 划分技术定义(磁盘数 n)优点缺点循环划分散列划分范围划分 划分技术定义(磁盘数 n)优点缺点循环划分(i mod n)最适合顺序扫描难以处理范围查询散列划分值域为0…n-1的散列函数 h顺序存取无聚簇 因此难以回答范围查询范围划分划分向量 [v0v1…vn−2][v_0 v1 … v{n-2}][v0​v1​…vn−2​]偏斜的处理 偏斜的种类2种偏斜是划分偏斜的两种划分是 处理偏斜3种方法 属性值偏斜某些值在许多元组的划分属性上出现所有在划分属性上值相同的元组被分配在同一分区中 划分偏斜 范围划分一个坏的划分向量可能将过多元组分配到一个分区以及过少元组分配到其他分区 散列划分只要选择好的散列函数就不太可能发生 范围划分中处理偏斜生成平衡的划分向量的方法——每读出关系的1/n下一条元组的划分属性值就加入划分向量 利用直方图处理偏斜从直方图可以相对直接地构造出平衡的划分向量 利用虚拟处理器来处理偏斜偏斜的虚拟分区被分散到若干实际处理器上 查询间并行 增加事务吞吐量主要用于扩展事务处理系统以支持更大的每秒事务数 缓存一致性协议 • 读/写一页之前 该页必须以共享/排他方式加锁 • 对页加锁时 该页必须从磁盘读出 • 释放页锁之前 该页如果更新过则必须写到磁盘 查询内并行查询内并行的两种互相补充的形式 操作内并行 —— 查询内每个操作并行执行 操作间并行 —— 查询内不同操作并行执行 大数据管理系统二 NoSQL简介 Not Only SQL 典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图数据库 CAP CConsistency一致性是指任何一个读操作总是能够读到之前完成的写操作的结果 AAvailability可用性是指快速获取数据可以在确定的时间内返回操作结果 PTolerance of Network Partition分区容忍性是指当出现网络分区的情况时分离的系统也能够正常运行。 CA也就是强调一致性C和可用性A放弃分区容忍性P最简单的做法是把所有与事务相关的内容都放到同一台机器上。很显然这种做法会严重影响系统的可扩展性。传统的关系数据库都采用了这种设计原则因此扩展性都比较差CP也就是强调一致性C和分区容忍性P放弃可用性A当出现网络分区的情况时受影响的服务需要等待数据一致因此在等待期间就无法对外提供服务AP也就是强调可用性A和分区容忍性P放弃一致性C允许系统返回不一致的数据 BASE BASEBasically Availble, Soft-state, Eventual consistency BASE的基本含义是基本可用Basically Availble、软状态Soft state和最终一致性Eventual consistency NewSQL NewSQL是对各种新的可扩展/高性能数据库的简称 具有NoSQL对海量数据的存储管理能力还保持了传统数据库支持ACID和SQL等特性 NewSQL特点 支持关系数据模型 使用SQL作为主要的接口 第三章 大数据实时计算框架 3.1 Storm 定义 实时、分布式、流式的计算系统 Storm的典型应用场景同步异步数据流处理连续计算分布式远程程序调用都是什么概念 请求应答同步实时图片处理、实时网页分析 流式处理异步逐条处理、分析统计 数据流处理可用来实时处理新数据和更新数据库兼具容错性和可扩展性。 连续计算可进行连续查询并把结果即时反馈给客户端。 分布式远程程序调用 Storm的特点 可靠、快速、高容错水平扩展 技术架构三个部分分别是什么 Nimbus类JobTracker zookeeper Supervisor类TaskTracker worker类Child Worker、Executor和Task的关系 和前面类似 Storm的工作流程 Client提交Topology Nimbus将任务存储到 Zookeeper Supervisor获取分配任务并启动 Worker执行具体的 (Task) Storm容错任务级失败的处理方式任务槽故障务级失败集群节点(机器)故障分别会有什么Nimbus节点故障没发生什么 任务级失败 Bolt任务crash引起的消息未被应答 或 acker任务失败 Spout的fail方法将被调用。 Spout任务失败 与Spout任务对接的外部设备(如MQ)负责消息的完整性。 集群节点(机器)故障 Storm集群中的节点故障任务转移Zookeeper集群中的节点故障保证少于半数的机器宕机仍可运行 Nimbus节点故障没有NimbusWorker不会在必要时被安排到其他主机客户端也无法提交任务。 Stream是什么Spouts是什么Tuple是什么Bolts是什么Topology是什么 Stream无限的Tuple序列 Spouts水龙头Stream的源头 Bolts处理Tuple创建新Streams TopologySpouts和Bolts组成的抽象网络 Stream Grouping是什么有6种方式 用于告知Topology如何再两个组件Spouts、Bolts之间进行Tuple的传送 ShuffleGrouping随机分组 FieldsGrouping按照字段分组 AllGrouping广播发送所有Tuple向所有Task发 GlobalGrouping全局分组所有Tuple送到同一Task NonGrouping不分组 DirectGrouping指定发送指定接收 3.2 Spark Streaming 输入数据按照时间片分成一段一段的DStream每一段数据转换为Spark的RDD Spark Streaming的核心概念 DStream表示什么?Transformations 的功能标准的RDD操作有状态操作 表示数据流的RDDs序列 Transformations从一个Dstream修改数据以创建另一个DStream 标准的RDD操作map countByValue reduce insert… 有状态操作window countByValueAndWindow… DStream的输入源 基础来源高级来源 Spark容错 RDDs可以记住从原始的容错输入创建它的操作序列批量输入数据被复制到多个工作节点的内存中因此是容错的 一些对比 Spark Streaming与Storm对比 Spark StreamingStorm无法实现毫秒级的流计算可以实现毫秒级响应低延迟执行引擎可以用于实时计算相比于StormRDD数据集更容易做高效的容错处理 Storm和Hadoop架构组件功能对应关系 HadoopStorm应用名称JobTopology系统角色JobTrackerNimbusTaskTrackerSupervisor组件接口Map/ReduceSpout/Bolt 第四章 大图计算框架 计算模型 Superstep: 并行结点计算 对于每个结点六种可能操作 终止条件两个 接受上一个superstep发出的消息 执行相同的用户定义函数 修改它的值或者其输出边的值 将消息送到其他点(由下一个superstep接受) 改变图的拓扑结构 没有额外工作要做时结束迭代 所有顶点同时变为非活跃状态 没有信息传递 4.1 Pregel 系统架构 Pregel系统也使用主/从模型 主节点调度从节点、修复从节点的错误从节点处理自己的任务、与其他从节点通信 聚合器用于用什么结构聚合的 用于全局通信、全局数据和监控 在superstep末尾来自每个从节点的部分聚合值聚合在一个树结构种 Pregel执行5个步骤 ① 主节点分割图并给每个从节点分配一个或多个部分 ② 主节点指导每个从节点执行一个superstep ③ 最后主节点指示每个从节点保存各自的图 4.2 GraphX 使用路由表连接站点选择 迭代mrTriplets的缓存 迭代mrTriplets的聚合 容错 检查点主节点定期指示从节点将分区的状态保存到持久化存储中错误检测定时使用“ping”信息恢复 主节点将图形分区重新分配给当前可用的从节点 所有工作人员都从最近可用的检查点重新加载分区状态局部恢复记录传出的信息、只涉及恢复分区 第五章 大数据存储 在大规模下小概率事件将成为常态小概率事件有什么 磁盘机器损坏、RAID卡故障、网络故障、电源故障、数据错误、系统异常 HDFS 相关术语 HDFSGFSMooseFS说明NameNodeMasterMaster提供文件系统的目录信息分块信息数据块的位置信息管理各个数据服务器。DataNodeChunk ServerChunk Server分布式文件系统中的每一个文件都被切分成若干个数据块每一个数据块都被存储在不同的服务器上BlockChunkChunk每个文件都会被切分成若干个块默认64MB每一块都有连续的一段文件内容是存储的基本单位。Packet无无累计到Packet后往文件系统中写入一次Chunk无Block(64KB)在每一个数据包中都会将数据切成更小的块512字节每一个块配上一个奇偶校验码CRC这样的块就是传输块。Secondary NameNode无Metalogger备用的主控服务器拉取着主控服务器的日志等待被扶正 核心功能 功能说明Namespace命名空间Shell命令直接和HDFS以及其他Hadoop支持的文件系统进行交互数据复制机架感知存放策略是将一个副本存放在本地机架上的节点一个副本放在同一机架上的另一个节点Editlog是整个日志体系的核心集群均衡空间的回收 读取文件流程5个步骤 ① HDFS Client向远程的Namenode发起RPC请求 ② Namenode返回文件的block拷贝的DataNode列表 ③ Client选取离客户端近的DataNode读取block ④ 若文件读取还没结束Client继续向NameNode获取下一批block列表 ⑤ 读完后关闭与DataNode的连接为读取下一个block寻找最佳DataNode 写入文件流程5个步骤写数据的方式是 ① HDFS Client向远程的Namenode发起RPC请求 ② NameNode检查文件是否存在是否有权操作 ③ 将文件切分为多个packets向NameNode申请新blocks获取适合存储的DataNode列表 ④ 开始以管道的形式将packet写入DataNode存储后将剩下的传递到下一个DataNode呈流水线的形式 ⑤ 最后的DataNode会返回ack packet在pipeline里传给Client。Client收到后从ack queue移除相应packet 数据写入流程总结 数据写入方式优点不足链式写入负载均衡链条过长主从写入链条短单点压力大