首页 - 技术栈

镇江网站seo外包多媒体教学网站的建设的论文

作者: 五速梦信息网
时间: 2026年06月19日 03:45

当前位置：首页 > news >正文

镇江网站seo外包,多媒体教学网站的建设的论文,站长工具seo综合查询工具,哪里有做ppt的网站本文我们介绍如何在Ubuntu上安装Apache Airflow。Apache Airflow旨在通过编程方式编写、调度和监控工作流。随着数据编排在现代数据工程中变得越来越重要#xff0c;掌握Apache Airflow等工具可以显著提高您的生产力和效率。学习Apache Airflow的首要任务是安装单机版本进行测… 本文我们介绍如何在Ubuntu上安装Apache Airflow。Apache Airflow旨在通过编程方式编写、调度和监控工作流。随着数据编排在现代数据工程中变得越来越重要掌握Apache Airflow等工具可以显著提高您的生产力和效率。学习Apache Airflow的首要任务是安装单机版本进行测试通过实践逐步掌握其原理及应用。本指南为在Ubuntu 24.04上安装Apache Airflow提供全面的分步过程。
软件依赖首先需要安装下列软件组件 Python: Version 3.6 or higherPip: Python package installerPostgreSQL: 建议使用的元数据存储数据库默认为SQLITE当然MySQL也可以Virtualenv: 创建Python虚拟环境操作系统准备您应该可以使用具有sudo权限的非root用户访问Ubuntu服务器。这确保你可以执行管理任务而不会危及系统安全性。

准备环境更新系统第一步是更新软件包列表并升级任何现有软件包以确保拥有最新的安全更新和特性。执行如下命令 sudo apt update sudo apt upgrade -y安装必要的依赖接下来使用以下命令安装Python和虚拟环境工具 sudo apt install python3-pip python3-venv -y设置虚拟环境虚拟环境能够分别管理不同项目的依赖关系实现项目环境隔离。使用以下命令创建和激活虚拟环境 mkdir airflow-project cd airflow-project python3 -m venv airflow-env source airflow-env/bin/activate2. 安装Airflow 我们可以使用pip或Docker安装Apache Airflow。本指南侧重于pip安装方法这种方法简单且广泛使用。使用pip安装Airflow 你可以安装Apache Airflow和必要的额外的如PostgreSQL支持运行 pip install apache-airflow[postgres,celery,rabbitmq]该命令安装airflow和它的依赖关系存储元数据数据库PostgreSQL用于分布式任务执行的Celery以及作为消息代理的RabbitMQ。验证安装安装完成后通过检查版本确认安装正确 airflow version3. 初始化数据库准备元数据存储数据库元数据数据库非常重要因为它存储有关任务实例、DAG运行和其他操作数据的信息。默认情况下Airflow使用SQLite但建议在生产环境中使用PostgreSQL。初始化数据库如果连接Postgresql需要先配置数据库连接。初始化数据库的命令如下 airflow db init初始化用户 airflow users create --username admin --password passw0rd --firstname Peter --lastname Parker --role Admin --email spidermansuperhero.org也可以在环境变量中设置 AIRFLOW_WWW_USER_USERNAME: Sets the username for the admin UI account. AIRFLOW_WWW_USER_PASSWORD: Sets the password for the admin UI account. AIRFLOW_WWW_USER_FIRSTNAME: Optional first name for the user. AIRFLOW_WWW_USER_LASTNAME: Optional last name for the user. AIRFLOW_WWW_USER_EMAIL: Optional email address for the user.4. 配置Airflow 编辑配置文件 Airflow主要配置文件位于$AIRFLOW_HOME/Airflow.cfg。在首选文本编辑器中打开此文件以调整执行器类型和数据库连接字符串等设置。主要修改配置项 [core]: 设置执行类型包括LocalExecutor 或 CeleryExecutor等[database]: 更新默认数据库连接PostgreSQLsql_alchemy_conn postgresqlpsycopg2://user:passwordlocalhost/dbname[webserver]: 配置web管理服务如端口等设置环境变量可能需要设置环境变量来定义Airflow安装文件位置。使用以下命令设置AIRFLOW_HOME export AIRFLOW_HOME~/airflow5. 启动Airflow 启动web服务和调度程序 web服务提供用于监控和管理Airflow的用户界面。要同时启动web服务器和调度程序请在不同的终端窗口中运行以下命令

Start Web Server

airflow webserver –port 8080# Start Scheduler airflow scheduler访问web管理界面您可以通过导航到http://localhost:8080访问气流web界面。默认用户名和密码与前节配置一致。 Airflow执行方式
LocalExecutor本地执行器概述 LocalExecutor 是 Airflow 的默认执行器它允许在本地机器上以多进程的方式执行任务。每个任务作为一个独立的进程在本地运行通过一个 SQL 数据库通常是 MySQL 或 PostgreSQL来协调任务的调度和状态管理。工作原理当 Airflow 调度器触发一个任务实例时它会在本地机器上启动一个新的进程来运行该任务。这些进程之间通过共享数据库来通信和同步状态。例如调度器会将任务实例的状态更新到数据库中如将任务标记为 “运行中”而任务进程在完成或失败后也会更新数据库中的相应状态记录。适用场景适合用于开发和测试环境或者在任务负载较小、对资源隔离要求不高的简单生产场景。例如在一个小型的数据处理工作流中任务数量较少且计算资源需求不大使用 LocalExecutor 就可以方便地在本地进行任务的调度和执行。
CeleryExecutor分布式执行器概述 CeleryExecutor 用于在分布式环境中执行任务。它依赖于 Celery 消息队列系统来将任务分发到多个工作节点worker nodes上进行处理从而实现任务的并行执行和资源的有效利用。工作原理当 Airflow 调度器触发任务时它会将任务消息发送到 Celery 消息队列中。多个 Celery worker 节点监听这个队列当有任务消息到达时worker 节点会从队列中获取任务并执行。每个 worker 节点可以在不同的机器上运行它们可以根据自身的资源配置和任务类型来处理相应的任务。例如在一个数据处理集群中可以有一些 worker 节点专门用于数据提取任务另一些用于数据转换任务等。适用场景适用于大规模的生产环境需要处理大量任务、对任务执行效率和资源利用要求较高的场景。例如在一个处理海量数据的 ETLExtract、Transform、Load工作流中涉及到众多的数据提取、清洗、转换和加载任务通过使用 CeleryExecutor 可以将这些任务分布到多个计算节点上并行执行大大提高工作流的整体执行效率。
KubernetesExecutor容器化执行器概述 KubernetesExecutor 允许将 Airflow 任务作为容器在 Kubernetes 集群中运行。它利用了 Kubernetes 强大的容器编排功能将每个任务封装在一个容器中并根据任务的需求动态地在 Kubernetes 集群中分配资源和调度执行。工作原理当 Airflow 调度器触发一个任务时它会向 Kubernetes API 发送请求创建一个包含任务执行环境的容器。Kubernetes 会根据集群的资源状况和任务的配置要求如 CPU、内存需求等在合适的节点上启动这个容器并执行任务。例如在一个微服务架构的数据处理系统中每个服务的任务可以被打包成一个容器通过 KubernetesExecutor 在集群中灵活地调度和执行并且可以方便地进行版本升级和资源调整。适用场景非常适合云原生环境和容器化部署的场景。如果你的应用已经在 Kubernetes 集群中运行或者希望利用容器化的优势如资源隔离、易于部署和扩展等来执行 Airflow 工作流那么 KubernetesExecutor 是一个很好的选择。例如在一个基于云服务的大数据处理平台中使用 KubernetesExecutor 可以方便地在云原生的 Kubernetes 集群中运行各种数据处理任务同时享受容器化带来的高效管理和灵活扩展的好处。
SequentialExecutor顺序执行器概述 SequentialExecutor 是最简单的执行器它按照任务在 DAG有向无环图中的顺序依次执行任务每次只执行一个任务不存在任务的并行处理。工作原理当调度器触发 DAG 运行时SequentialExecutor 会从 DAG 的起始任务开始一个接一个地执行任务。只有当前一个任务执行完成后才会开始执行下一个任务。它通过在本地单进程环境中简单地遍历 DAG 的任务依赖关系来实现任务的顺序执行。适用场景主要用于非常简单的测试场景或对任务执行顺序有严格要求且不需要并行处理的情况。例如在开发一个新的 Airflow DAG 时为了初步验证任务的逻辑顺序是否正确可以使用 SequentialExecutor 进行简单的测试。这种执行器在处理复杂工作流时效率较低因为它不能利用并行计算资源来加速任务的完成。
最后总结本文介绍了适合顺序执行和本地执行的非集群Airflow安装主要用于测试开发环境准备。要在生成环境运行Airflow通常需要集群环境采用分布式或容器方式执行。