首页 - 技术栈

电子商务网站建设体会html5从入门到精通

作者: 五速梦信息网
时间: 2026年06月19日 11:28

当前位置：首页 > news >正文

电子商务网站建设体会,html5从入门到精通,坪地做网站,网站开发项目需求方案第一章大数据计算系统概述 1.1 大数据计算框架概述 Hadoop Hadoop的运行过程#xff08;5个步骤#xff1f;#xff09; split map shuffle reduce output Hadoop的详细运行过程#xff1f;#xff08;4个大过程#xff0c;6662#xff09; 创建…第一章大数据计算系统概述 1.1 大数据计算框架概述 Hadoop Hadoop的运行过程5个步骤 split map shuffle reduce output Hadoop的详细运行过程4个大过程6662 创建新Job实例并调度HDFS资源启用MapTask执行map函数启动ReduceTask执行reduce函数JobClient轮询获知任务完成 Job 和 Task的区别作业JobMapReduce程序指定的一个完整计算过程任务TaskMapReduce框架中进行并行计算的基本事务单元一个作业Job在执行过程中可以被拆分为若干Map和Reduce任务Task完成 MapReduce调度器三种默认的是什么执行的作业顺序 FIFOFairCapacity Map后的2次排序分别用的什么排序算法对象是文件还是多个文件文件内部快速排序Sort 多个文件归并排序Merge MapReduce任务处理过程六个步骤待处理的大数据划分提交给主节点传送给map节点做一些数据整理工作(combining) 传送给Reduce节点失效结点处理主节点失效会怎样工作节点失效呢主节点失效一旦某个任务失效可以从最近有效的检查点开始重新执行避免从头开始计算的时间浪费。工作节点失效如果主节点检测工作节点没有得到回应则认为该工作节点失效。主节点将把失效的任务重新调度到其它工作节点上执行。 MapReduce 1.0缺点主要在哪二个方面的哪三个方向 JobTracker 是 Map-reduce 的集中处理点存在单点故障。 JobTracker 完成了太多的任务造成了过多的资源消耗 YARN引入了什么概念有哪三个主要部分它们都是干什么的 ApplicationMaster头头申请资源和分配任务 ResourceManager小头监控头头和下属资源分配和调度 NodeManager下属资源管理接受命令 1.2 大数据批处理计算框架 Spark RDD概念全称是可分区吗它放在主存还是内存弹性分布式数据集一个RDD的不同分区可以在集群中的不同节点上进行并行计算放内存 RDD的操作分为哪三种类型用于 actiontransformationpersistence RDD的执行过程怎么创建怎么产生不同的RDD怎么输出到外部数据源优点是读入外部数据源 transformation action RDD高效的原因怎么容错在磁盘还是内存存放数据可以是什么数据复制和记录日志中间持久化到内存中间数据在内存中的RDD操作中传递存放对象可是Java对象基本概念 DAG是什么的简称Executor是运行在哪的一个进程负责运行什么?应用作业阶段任务的关系和它们分别干什么用有向无环图运行在工作节点WorkerNode的一个进程负责运行Task 应用作业阶段任务架构设计三层分别是英文和中文名第三层里有什么两种Node分别是基于什么存储结构 Driver ProgramSparkContext Cluster Manager Worker NodesExecutor(Task) HDFS、HBase Spark运行代码的7个步骤 ① Driver解析生成Task ② Driver向Cluster Manager申请资源 ③ Cluster Manager分配资源和节点并创建Executor ④ Executor向Driver注册 ⑤ Driver将代码和文件传给Executor ⑥ Executor运行Task Shuffle操作宽依赖和窄依赖分别是什么情况宽依赖一对多和多对多窄依赖多对一或一对一阶段的划分划分的依据哪种依赖利于优化逆流划分遇到窄依赖就做合并遇到宽依赖就断开 RDD运行过程4个阶段干了什么 ① 创建RDD对象 ② 创建DAG也即RDD之间的依赖关系再分解为多个Stage每个Stage中有多个Task ③ Task被TaskScheduler分给WorkerNode上的Executor执行 ④ Worker执行Tasks RDD容错机制维护用来重建的信息 RDD维护可以用来创建丢失分区的信息 Spark中的存储机制RDD缓存存在哪如何从磁盘取得分区对应的数据块Shuffle数据存在哪 RDD缓存包括基于内存和磁盘的缓存内存缓存哈希表存取策略 Shuffle数据的持久化必须是在磁盘上进行缓存的第二章大数据管理系统大数据管理系统一概念数据库的定义数据库是长期储存在计算机内、有组织的、可共享的数据集合。 DBMS全称主要功能DDL是什么DML是什么 Database Management System 数据定义语言定义数据库中的数据对象。数据操纵语言操纵数据实现对数据库的基本操作。 DBS包括什么数据库、数据库管理系统、应用系统、数据库管理员、用户数据库存储结构 RAID是什么由什么组成磁盘冗余阵列由若干同样的磁盘组成的阵列文件内记录的组织5种记录的组织方式它们分别怎么记录的堆文件组织随便放顺序文件组织升序或降序的放指针链结构散列文件组织某个属性值通过哈希函数求得的值作为存储地址聚类文件组织有联系的记录存储在同一块内
索引技术索引是什么?它是文件吗索引分类两大类主索引是什么聚类索引和非聚类的差别聚类索引中的三种索引是索引的更新删除和插入分别对于稠密索引和稀疏索引是什么样的操作独立于主文件记录的一个只含索引属性的小的文件两大类有序索引 vs 散列索引聚类非聚类索引区别在于是否与主文件顺序一致稠密索引、稀疏索引、多级索引删除对稠密索引删除相应的索引项对稀疏索引如果被删记录的索引值在索引块中出现则用主文件被删记录的下一个记录的查找键A替换。若A已出现在索引块则删除被删记录的对应索引键。插入对稠密索引且查找键未在索引块出现在索引中插入。对稀疏索引若数据块有空闲放得下新数据不用修改索引否则加入新数据块在索引块中插入一个新索引项事务定义由什么组成?事务的ACID性质是DBMS中一个逻辑工作单元通常由一组数据库的操作组成原子性(Atomic) 一致性(Consistency) 隔离性(Isolation) 持久性(Durability) I/O并行划分技术定义(磁盘数 n)优点缺点循环划分散列划分范围划分划分技术定义(磁盘数 n)优点缺点循环划分(i mod n)最适合顺序扫描难以处理范围查询散列划分值域为0…n-1的散列函数 h顺序存取无聚簇因此难以回答范围查询范围划分划分向量 [v0v1…vn−2][v_0 v1 … v{n-2}][v0v1…vn−2]偏斜的处理偏斜的种类2种偏斜是划分偏斜的两种划分是处理偏斜3种方法属性值偏斜某些值在许多元组的划分属性上出现所有在划分属性上值相同的元组被分配在同一分区中划分偏斜范围划分一个坏的划分向量可能将过多元组分配到一个分区以及过少元组分配到其他分区散列划分只要选择好的散列函数就不太可能发生范围划分中处理偏斜生成平衡的划分向量的方法——每读出关系的1/n下一条元组的划分属性值就加入划分向量利用直方图处理偏斜从直方图可以相对直接地构造出平衡的划分向量利用虚拟处理器来处理偏斜偏斜的虚拟分区被分散到若干实际处理器上查询间并行增加事务吞吐量主要用于扩展事务处理系统以支持更大的每秒事务数缓存一致性协议 • 读/写一页之前该页必须以共享/排他方式加锁 • 对页加锁时该页必须从磁盘读出 • 释放页锁之前该页如果更新过则必须写到磁盘查询内并行查询内并行的两种互相补充的形式操作内并行 —— 查询内每个操作并行执行操作间并行 —— 查询内不同操作并行执行大数据管理系统二 NoSQL简介 Not Only SQL 典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图数据库 CAP CConsistency一致性是指任何一个读操作总是能够读到之前完成的写操作的结果 AAvailability可用性是指快速获取数据可以在确定的时间内返回操作结果 PTolerance of Network Partition分区容忍性是指当出现网络分区的情况时分离的系统也能够正常运行。 CA也就是强调一致性C和可用性A放弃分区容忍性P最简单的做法是把所有与事务相关的内容都放到同一台机器上。很显然这种做法会严重影响系统的可扩展性。传统的关系数据库都采用了这种设计原则因此扩展性都比较差CP也就是强调一致性C和分区容忍性P放弃可用性A当出现网络分区的情况时受影响的服务需要等待数据一致因此在等待期间就无法对外提供服务AP也就是强调可用性A和分区容忍性P放弃一致性C允许系统返回不一致的数据 BASE BASEBasically Availble, Soft-state, Eventual consistency BASE的基本含义是基本可用Basically Availble、软状态Soft state和最终一致性Eventual consistency NewSQL NewSQL是对各种新的可扩展/高性能数据库的简称具有NoSQL对海量数据的存储管理能力还保持了传统数据库支持ACID和SQL等特性 NewSQL特点支持关系数据模型使用SQL作为主要的接口第三章大数据实时计算框架 3.1 Storm 定义实时、分布式、流式的计算系统 Storm的典型应用场景同步异步数据流处理连续计算分布式远程程序调用都是什么概念请求应答同步实时图片处理、实时网页分析流式处理异步逐条处理、分析统计数据流处理可用来实时处理新数据和更新数据库兼具容错性和可扩展性。连续计算可进行连续查询并把结果即时反馈给客户端。分布式远程程序调用 Storm的特点可靠、快速、高容错水平扩展技术架构三个部分分别是什么 Nimbus类JobTracker zookeeper Supervisor类TaskTracker worker类Child Worker、Executor和Task的关系和前面类似 Storm的工作流程 Client提交Topology Nimbus将任务存储到 Zookeeper Supervisor获取分配任务并启动 Worker执行具体的 (Task) Storm容错任务级失败的处理方式任务槽故障务级失败集群节点(机器)故障分别会有什么Nimbus节点故障没发生什么任务级失败 Bolt任务crash引起的消息未被应答或 acker任务失败 Spout的fail方法将被调用。 Spout任务失败与Spout任务对接的外部设备(如MQ)负责消息的完整性。集群节点(机器)故障 Storm集群中的节点故障任务转移Zookeeper集群中的节点故障保证少于半数的机器宕机仍可运行 Nimbus节点故障没有NimbusWorker不会在必要时被安排到其他主机客户端也无法提交任务。 Stream是什么Spouts是什么Tuple是什么Bolts是什么Topology是什么 Stream无限的Tuple序列 Spouts水龙头Stream的源头 Bolts处理Tuple创建新Streams TopologySpouts和Bolts组成的抽象网络 Stream Grouping是什么有6种方式用于告知Topology如何再两个组件Spouts、Bolts之间进行Tuple的传送 ShuffleGrouping随机分组 FieldsGrouping按照字段分组 AllGrouping广播发送所有Tuple向所有Task发 GlobalGrouping全局分组所有Tuple送到同一Task NonGrouping不分组 DirectGrouping指定发送指定接收 3.2 Spark Streaming 输入数据按照时间片分成一段一段的DStream每一段数据转换为Spark的RDD Spark Streaming的核心概念 DStream表示什么?Transformations 的功能标准的RDD操作有状态操作表示数据流的RDDs序列 Transformations从一个Dstream修改数据以创建另一个DStream 标准的RDD操作map countByValue reduce insert… 有状态操作window countByValueAndWindow… DStream的输入源基础来源高级来源 Spark容错 RDDs可以记住从原始的容错输入创建它的操作序列批量输入数据被复制到多个工作节点的内存中因此是容错的一些对比 Spark Streaming与Storm对比 Spark StreamingStorm无法实现毫秒级的流计算可以实现毫秒级响应低延迟执行引擎可以用于实时计算相比于StormRDD数据集更容易做高效的容错处理 Storm和Hadoop架构组件功能对应关系 HadoopStorm应用名称JobTopology系统角色JobTrackerNimbusTaskTrackerSupervisor组件接口Map/ReduceSpout/Bolt 第四章大图计算框架计算模型 Superstep: 并行结点计算对于每个结点六种可能操作终止条件两个接受上一个superstep发出的消息执行相同的用户定义函数修改它的值或者其输出边的值将消息送到其他点(由下一个superstep接受) 改变图的拓扑结构没有额外工作要做时结束迭代所有顶点同时变为非活跃状态没有信息传递 4.1 Pregel 系统架构 Pregel系统也使用主/从模型主节点调度从节点、修复从节点的错误从节点处理自己的任务、与其他从节点通信聚合器用于用什么结构聚合的用于全局通信、全局数据和监控在superstep末尾来自每个从节点的部分聚合值聚合在一个树结构种 Pregel执行5个步骤 ① 主节点分割图并给每个从节点分配一个或多个部分 ② 主节点指导每个从节点执行一个superstep ③ 最后主节点指示每个从节点保存各自的图 4.2 GraphX 使用路由表连接站点选择迭代mrTriplets的缓存迭代mrTriplets的聚合容错检查点主节点定期指示从节点将分区的状态保存到持久化存储中错误检测定时使用“ping”信息恢复主节点将图形分区重新分配给当前可用的从节点所有工作人员都从最近可用的检查点重新加载分区状态局部恢复记录传出的信息、只涉及恢复分区第五章大数据存储在大规模下小概率事件将成为常态小概率事件有什么磁盘机器损坏、RAID卡故障、网络故障、电源故障、数据错误、系统异常 HDFS 相关术语 HDFSGFSMooseFS说明NameNodeMasterMaster提供文件系统的目录信息分块信息数据块的位置信息管理各个数据服务器。DataNodeChunk ServerChunk Server分布式文件系统中的每一个文件都被切分成若干个数据块每一个数据块都被存储在不同的服务器上BlockChunkChunk每个文件都会被切分成若干个块默认64MB每一块都有连续的一段文件内容是存储的基本单位。Packet无无累计到Packet后往文件系统中写入一次Chunk无Block(64KB)在每一个数据包中都会将数据切成更小的块512字节每一个块配上一个奇偶校验码CRC这样的块就是传输块。Secondary NameNode无Metalogger备用的主控服务器拉取着主控服务器的日志等待被扶正核心功能功能说明Namespace命名空间Shell命令直接和HDFS以及其他Hadoop支持的文件系统进行交互数据复制机架感知存放策略是将一个副本存放在本地机架上的节点一个副本放在同一机架上的另一个节点Editlog是整个日志体系的核心集群均衡空间的回收读取文件流程5个步骤 ① HDFS Client向远程的Namenode发起RPC请求 ② Namenode返回文件的block拷贝的DataNode列表 ③ Client选取离客户端近的DataNode读取block ④ 若文件读取还没结束Client继续向NameNode获取下一批block列表 ⑤ 读完后关闭与DataNode的连接为读取下一个block寻找最佳DataNode 写入文件流程5个步骤写数据的方式是 ① HDFS Client向远程的Namenode发起RPC请求 ② NameNode检查文件是否存在是否有权操作 ③ 将文件切分为多个packets向NameNode申请新blocks获取适合存储的DataNode列表 ④ 开始以管道的形式将packet写入DataNode存储后将剩下的传递到下一个DataNode呈流水线的形式 ⑤ 最后的DataNode会返回ack packet在pipeline里传给Client。Client收到后从ack queue移除相应packet 数据写入流程总结数据写入方式优点不足链式写入负载均衡链条过长主从写入链条短单点压力大

上一篇：电子商务网站建设思维导图企业网站建设的原则
下一篇：电子商务网站建设完整详细流程如何用博客网站做cpa

电子商务网站建设体会html5从入门到精通

相关文章

电子商务网站建设思维导图企业网站建设的原则

电子商务网站建设属性河北建设工程信息网官网首页

电子商务网站建设试卷.doc南阳网站建设与管理

电子商务网站建设完整详细流程如何用博客网站做cpa

电子商务网站建设网室内设计师网站十大网站

电子商务网站建设需求分析报告学做网站买什么样的书

成都网站开发收费定制网站制作广州

成都网站开发培训网站上的百度地图标注咋样做

成都网站开发工资百度竞价产品

成都网站建设招标企业网络推广运营技巧

成都网站建设优点项目

成都网站建设赢展网络架构种类