首页 - 技术栈

上海网站制作怎么选福州有网站建设的公司排名

作者: 五速梦信息网
时间: 2026年03月21日 09:22

当前位置：首页 > news >正文

上海网站制作怎么选,福州有网站建设的公司排名,营销型网站建设eyouc,大型网站seo策略大家好#xff0c;我是独孤风#xff0c;大数据流动的作者。本文基于最新的 Hadoop 3.3.6 的版本编写#xff0c;带大家通过单机版充分了解 Apache Hadoop 的使用。本文更强调实践#xff0c;实践是大数据学习的重要环节#xff0c;也能在实践中对该技术有更深的理解我是独孤风大数据流动的作者。本文基于最新的 Hadoop 3.3.6 的版本编写带大家通过单机版充分了解 Apache Hadoop 的使用。本文更强调实践实践是大数据学习的重要环节也能在实践中对该技术有更深的理解所以一些理论知识建议大家多阅读相关的书籍都在资料包中。本文档版权归大数据流动所有请勿商用全套大数据、数据治理、人工智能相关学习资料请关注大数据流动。本文所使用资料包位置大数据流动 VIP 知识库》大数据技术》Apache Hadoop 3.3.6 单机安装包一、Hadoop 概述 Apache Hadoop 是一个开源框架用于存储和处理大规模数据集。它是用 Java 编写的并支持分布式处理。Hadoop 的关键特点包括分布式存储通过 Hadoop 分布式文件系统HDFS它可以跨多个节点存储大量数据提供高可靠性和数据冗余。分布式计算Hadoop 使用 MapReduce 编程模型来并行处理大数据这样可以有效地处理和分析存储在 HDFS 中的大规模数据集。可扩展性Hadoop 能够通过添加更多节点来轻松扩展处理更大量的数据。容错性Hadoop 设计中考虑到了故障的可能性能够在节点故障时继续运行确保数据不丢失。 5. 生态系统Hadoop 的生态系统包括各种工具和扩展如 Hive、HBase、Spark 等用于数据处理、分析和管理。 Hadoop 广泛应用于大数据分析、数据挖掘、日志处理等领域特别是在需要处理 PB 级别数据的场景中非常有效。所以我们可以理解为 Hadoop 是一个生态有了 Hadoop 为基础后续的 SparkFlink 等组件才相继出现让大数据技术持续的发展。而从软件角度Hadoop 本身自己是一个 Apache 的开源软件。 Apache Hadoop 主要由以下几个核心组件组成每个组件都有其独特的功能 1. Hadoop Common这是 Hadoop 的基础库集合提供了 Hadoop 模块所需要的通用工具和接口。它包括文件系统、操作系统级别的抽象以及必要的 Java 库文件。 Hadoop MapReduce (MR)这是一个编程模型用于处理大规模数据集的分布式计算。MapReduce 将作业分成两个阶段Map处理和 Reduce汇总。这种方法使得并行处理大数据变得简单有效。Hadoop YARN (Yet Another Resource Negotiator)YARN 是 Hadoop 的资源管理和任务调度器。它将计算资源管理和作业调度功能从 MapReduce 中分离出来提高了 Hadoop 的灵活性和可扩展性。Hadoop Distributed File System (HDFS)HDFS 是一个高度容错的分布式文件系统设计用来存储大量数据。它可以在廉价的硬件上运行提供高吞吐量以访问应用程序数据并适用于具有大数据集的应用程序。这些组件协同工作使 Hadoop 成为一个强大的工具用于存储、处理和分析大规模的数据集。而 Common 是基础库MapReduce 由于性能问题分布式计算已经被更高效的 SparkFlink 等计算引擎替代。但是HDFSYARN依然是最核心的两个组件一定要认真学习我也会单独发文章来学习这两个组件。二、Hadoop 历史当然以下是用 Markdown 格式概述 Apache Hadoop 的历史 2005 年 - 起源由 Doug Cutting 和 Mike Cafarella 创立受 Google 的 MapReduce 和 GFS 论文启发。Google 三篇理论中文版资料位置大数据流动 VIP 知识库》大数据技术》Google 三家马车2006 年 - 加入Apache成为 Apache 软件基金会的一部分最初是 Lucene 项目的一部分后来在 2008 年成为顶级项目。2008 年及以后 - 发展与普及快速获得关注生态系统不断发展增加了如 HBase、Hive 等工具。2011 年 - Hadoop 1.0 发布标志着 Hadoop 的成熟稳定 API 和核心组件包括 HDFS 和 MapReduce。2013 年 - Hadoop 2.0 和YARN的推出引入 YARN将 Hadoop 从以 MapReduce 为中心的平台转变为更加多功能的数据处理平台。持续演进 - Hadoop 不断更新扩展其功能和生态系统包括 Spark、Kafka、Flink 等工具。云集成 - 近年来与云服务集成提供更灵活、可扩展的数据处理解决方案。 Hadoop 也不光只有 Apache Hadoop很多公司都有自己的发行版本不同的发行版针对不同的用途和场景进行了优化用户可以根据自己的需求选择最适合的版本。随着时间的推移这些发行版可能会有所变化包括新的版本推出或旧版本停止维护。除了 Apache Hadoop还有 Cloudera 的 CDHCloudera Distribution Including Apache Hadoop、Hortonworks Data Platform (HDP)也就是 CDH 和 Ambari我也会在其他文章演示本文我们带来 Apache Hadoop 的单机版本演示Apache Hadoop 也是被使用最多的版本。三、Hadoop 3.3.6 单机安装下面我们进行 Hadoop3.3.6 的单机版安装。 1、版本情况与安装包准备 Apache Hadoop 的官网地址是 https://hadoop.apache.org/ 我们在这里可以看到最新的版本是 3.3.6这也是 2023 年新发布的版本各方面都做了很大的优化本文也基于此版本进行演示。我们使用的 Hadoop 版本是 3.3.6可以在官方网站进行下载 https://archive.apache.org/dist/hadoop/common/hadoop-3.3.6/ 696MB 这个。 2、服务器环境准备不管是服务器和虚拟机环境的准备大家都可以参考我之前的文章在本地搭一个虚拟机也可以去买一个现成的这里不做赘述。我们使用的 CentOS 版本是 7.8可以通过下面的命令来查看版本。 cat /etc/redhat-release CentOS7 的安装步骤基本一致都可以参考本文档。服务器需要做一下免密登陆设置不然后面会有问题 ssh-keygen -t rsa -P 回车即可随后复制密钥 cat ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys 可以验证一下 ssh bigdataflowing 正常会直接登录过去。 3、JDK 安装先卸载系统自带的 java rpm -qa | grep -i java | xargs -n1 rpm -e –nodeps 上传安装包到服务器安装包可在 Oracle 官网下载https://www.oracle.com/java/technologies/downloads/ 也可以用我的资料包里的。 jdk-8u221-linux-x64.tar.gz 建立文件夹。 mkdir /opt/jdk/ 进入该文件夹上传文件。 cd /opt/jdk/ 解压安装包 tar -zxvf jdk-8u221-linux-x64.tar.gz 没有报错证明解压成功。随后我们把 JDK 配置到环境变量里就可以了。 vi /etc/profile 在最下面加入这两句其实就是我们刚刚解压 jdk 的位置。 export JAVA_HOME/opt/jdk/jdk1.8.0_221 export PATH\(PATH:\)JAVA_HOME/bin 最后让环境变量生效 source /etc/profile 查看 java 版本验证一下java -version 成功这样我们这台机器就有 java 环境可用了。 4、Hadoop3.3.6 安装有了 java 环境hadoop 的依赖问题就解决了可以直接进行安装。将之前准备好的 hadoop 安装包上传到 /opt/hadoop3.3.6 目录下解压tar -zxvf hadoop-3.3.6.tar.gz 没报错就是成功。还是增加环境变量 vi /etc/profile 在最下面加入这三句hadoop 的位置 export HADOOP_HOME/opt/hadoop3.3.6/hadoop-3.3. 6 export PATH\(PATH:\)HADOOP_HOME/bin export PATH\(PATH:\)HADOOP_HOME/sbin 最后让环境变量生效 source /etc/profile 查看 java 版本验证一下hadoop-version 成功使用 hadoop version 命令验证安装成功 5、配置虽然安装成功但是我们要使用的是单机伪集群还需要进行一些配置。 hadoop 的目录有如下的文件夹 bin 目录Hadoop 主服务脚本 etc 目录Hadoop 的配置文件目录 lib 目录存放 Hadoop 的本地库 sbin 目录存放启动或停止 Hadoop 相关服务的脚本首先进入 etc 配置文件夹 cd etc/hadoop 有如下配置我们只修改核心的就可以。首先修改 hadoop-env.sh 将 java 和 hadoop 的根路径加入 export JAVA_HOME/opt/jdk/jdk1.8.0_221 export HADOOP_HOME/opt/hadoop3.3.6/hadoop-3.3.6 同时加入 root 权限 export HDFS_NAMENODE_USERroot export HDFS_DATANODE_USERroot export HDFS_SECONDARYNAMENODE_USERroot export YARN_RESOURCEMANAGER_USERroot export YARN_NODEMANAGER_USERroot 修改 core-site.xml 在 configuration 标签中添加如下内容 propertynamefs.defaultFS/namevaluehdfs://bigdataflowing:9090/value/property!– 指定 hadoop 数据的存储目录 –propertynamehadoop.tmp.dir/namevalue/opt/hadoop3.3.6/hdfs/tmp/value/propertypropertynamehadoop.proxyuser.root.hosts/namevalue/value/propertypropertynamehadoop.proxyuser.root.groups/namevalue/value/property 修改 hdfs-site.xml在 configuration 标签中添加如下内容 propertynamedfs.replication/name value1/value/property propertynamedfs.namenode.name.dir/name value/opt/hadoop3.3.6/hdfs/name/value finaltrue/final/property propertynamedfs.datanode.data.dir/name value/opt/hadoop3.3.6/hdfs/data/value finaltrue/final/property propertynamedfs.http.address/namevalue0.0.0.0:50070/value/propertypropertynamedfs.permissions/name valuefalse/value/property 修改 mapre-site.xml在 configuration 标签中添加如下内容 propertynamemapreduce.framework.name/namevalueyarn/value/property 修改 yarn-site.xml在 configuration 标签中添加如下内容 propertynameyarn.nodemanager.aux-services/namevaluemapreduce_shuffle/value /property 6、启动首先格式化 HDFS也就是对 hdfs 做最基本的配置 hdfs namenode -format 格式化完成。随后我们进入 sbin 目录 cd /opt/hadoop3.3.6/hadoop-3.3.6/sbin/ 这里脚本较多我们可以选择启动全部 ./start-all.sh 正常不会有报错同时使用 jps 命令查看会有 DatanodeResourceManagerSecondaryNameNodeNameNodeNodeManager 五个进程。另一个验证启动成功的方法是访问 Hadoop 管理页面 http://IP:50070/ http://IP:8088/ 这些页面的使用我们会在后续 HdfsYarn 等章节再详细讲解。 7、报错汇总启动报错未设置 root 用户 ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation. Starting datanodes ERROR: Attempting to operate on hdfs datanode as root ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation. Starting secondary namenodes [bigdataflowing] ERROR: Attempting to operate on hdfs secondarynamenode as root ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation. Starting resourcemanager ERROR: Attempting to operate on yarn resourcemanager as root ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting operation. Starting nodemanagers ERROR: Attempting to operate on yarn nodemanager as root ERROR: but there is no YARN_NODEMANAGER_USER defined. Aborting operation。启动报错为进行免密登陆设置 localhost: Permission denied (publickey,password 更多【大数据、数据治理、人工智能知识分享】【开源项目推荐】【学习社群加入】请关注大数据流动。