如何制作一般企业网站c mvc 网站开发进阶之路

当前位置: 首页 > news >正文

如何制作一般企业网站,c mvc 网站开发进阶之路,廊坊视频剪辑培训机构,全国建筑行业资质查询平台在 12 月 14 日的 Doris Summit Asia 2024 上#xff0c;Apache Doris 创始人 PMC 成员马如悦在开场演讲中#xff0c;围绕“现代化数据仓库”这一主题#xff0c;指出 3.0 版本是 Apache Doris 研发路程中的重要里程碑#xff0c;他将这一进展总结为“实时之路”、“…在 12 月 14 日的 Doris Summit Asia 2024 上Apache Doris 创始人 PMC 成员马如悦在开场演讲中围绕“现代化数据仓库”这一主题指出 3.0 版本是 Apache Doris 研发路程中的重要里程碑他将这一进展总结为“实时之路”、“统一之路”和“弹性之路”详细介绍了所对应的核心特性的设计思考与应用价值揭晓了 2025 年社区发展蓝图。 本文节选自马如悦在 Doris Summit Asia 2024 上的演讲以马如悦第一人称叙述经编辑。 最具影响力开源大数据项目之一 Apache Doris 自 2013 年创建至今已 10 年有余截至目前GitHub Stars 已近 13,000社区的贡献者达到近 670 名平均每月活跃贡献者超过 120 名。这一成就使其超越了 Spark、Kafka 等项目成为开源大数据和数据库领域中月活开发者最多的项目。此外Apache Doris 在所有 Apache 项目中官网浏览量稳居第一2024 年 4 月网站 PV 高达 900w可见其受欢迎程度。 全球中大型企业规模突破 5000 家 在 Apache Doris 技术持续创新与稳步发展下越来越多的用户及企业选择并使用 Apahce Doris。我记忆犹新的是2022 年时Apache Doris 所覆盖企业规模不足千家然而时隔仅 2-3 年目前正在使用 Apache Doris 的中大型企业已突破 5000 家并且不断有新的用户了解并尝试使用 Doris。这一迅猛增长得益于社区所有用户及开发者的反馈、建议及开发共建同时也离不开其商业公司飞轮科技提供的技术驱动、用户维系和社区建设等全方位的支持。 这 5000 家企业覆盖范围十分广泛且多元化包括金融、互联网、电信、游戏、交通物流、零售快消、能源制造等多个领域并且正在不断拓展新的应用场景这充分证明了 Apache Doris 的强大性能及广泛适用性。今天到场的许多嘉宾正是我们的用户在接下来的议程中他们也将带来精彩的主题演讲期待能给更多人带来启发与洞见。 2024 年Apache Doris 重点推出了 3.0 版本这一版本是研发之路上的重要里程碑。其缘由在于自诞生之初Apache Doris 就定位于现代化实时数据仓库。在 3.0 版本之前尽管它在很多特性上都非常领先、大受欢迎但并未完全实现现代化特性。然而现代化这一理念在 3.0 版本中得以全面实现并得到了充分的验证。接下来我将从实时、统一和弹性三个方面介绍 Apache Doris 在现代化数据仓库创新之路上的进展。 Real-Time实时之路 随着工业 3.0 发展阶段的到来数字技术已成为主流企业正全面迈入实时分析时代。从以往批量报表转变为如今的实时仪表盘从面向内部的分析扩展为面向外部的分析服务从静态报表到交互式即时查询从以人为中心到自动算法调用…这些变化都对实时性提出了非常高的要求。 实时分析是 Apache Doris 最为基础且核心的特性之一。项目建立之初大多数用户正是被 Doris 的实时性所吸引。如今Apache Doris 的实时性无疑已成为业界的标杆。那么Apache Doris 是如何实现如此强大的实时分析性能呢 01 秒级实时数据写入 实时数据的核心在于确保数据的新鲜度和快速可见性。为实现这一目标Apache Doris 在实时数据的导入与存储方面进行了大量优化具体分为以下三部分 秒级实时数据写入 支持秒级的实时数据写入能够通过高效的 StreamLoad 和 Insert Into 功能实现快速数据导入。此外它还支持服务端的批量 Group Commit提升数据高频实时写入的效率。同时Doris 可自动从 Kafka 拉取数据并支持数据库的 CDC、Flink 和 Spark 的实时数据导入并均可实现秒级入库。高性能数据更新 引入基于 Merge-on-Write 的主键模型该表模型在数据写入时即对需要删除或更新的数据进行标记始终保证有效的主键只出现一个文件中。同时Doris 也支持 UPSERT 操作包括条件更新、条件删除和部分列更新以及基于 Sequence 列的并发导入事务。这对于高频写入的场景来说大大减少了查询执行时的额外消耗。轻量级元数据变更 支持轻量级的元数据变更操作如更改列名、增加或删除值列以及调整 Varchar 列的长度等。这些操作可在毫秒级别内完成确保数据能够实时更新满足实时性需求。 02 极速交互式分析性能 相较于事务型数据库分析数据库则更注重交互式分析体验。为提供更好的交互性分析Apache Doris 在性能上不断优化包括对向量化引擎、基于 CBO 的优化器、丰富的索引支持、单表/多表物化视图以及在 ARM 架构下的深度优化等。在这些能力的加持下Apache Doris 在测试集中表现优异 在 ClickBench 测试中Apache Doris 分别在 2022、2024 年 10 月在榜单上领先所有工业界数据库 。在 TPC-H 测试中Apache Doris 在 Join 场景中表现优异其性能约为 Greenplum 的 3 至 8 倍。在 TPC-DS 测试中结果显示 Apache Doris 性能较 Trino/Presto 提升了约 3 倍。 03 超大规模用户高并发查询 在数据量不断激增的当下高并发查询的需求也愈发的明显。Apache Doris 在高并发查询方面进行多项优化最终实现了单节点最高上万 QPS 的并发 分区分桶裁减采用 Partition、 Bucket 两级分区通过 Hash 将数据打散至各个节点中以此提升读取并行度和吞吐量。主键索引 倒排索引 提供丰富的索引结构来加速数据的读取和过滤。通过索引显著减少了需要扫描的行数降低 CPU 和 IO 的压力大幅提升了系统整体并发能力。行列混存引入行式存储格式在数据服务场景中行存更为高效可减少磁盘访问次数。用户可指定开启行存点查时每行只需一次 IO在宽表列较多的情况下性能有数量级提升。点查短路径及预处理语句优化实现了点查短路径优化绕过查询优化器以及 PlanFragment 来简化 SQL 执行流程直接使用快速高效的读路径来检索所需的数据。同时FE 端支持与 MySQL 协议兼容的预处理语句在 CPU 成为瓶颈时Prepared Statement 可实现 4 倍以上的性能提升。 04 高可用架构设计 分析型数据仓库如今不仅为企业内部提供 BI 报表和分析还广泛服务于外部客户及大量高并发用户。因此实时系统需要秒级数据入库和查询且不允许停机维护。对于此Apache Doris 的优势也十分明显 简洁架构设计采用简洁的架构设计确保元数据节点FE和存储计算节点BE均无单点故障确保在硬件故障时服务能够持续运行而不受影响。在线扩容与滚动升级支持在线扩容和滚动升级用户能够在不中断服务的情况下灵活地调整计算资源和存储容量极大地提升了系统的弹性允许用户根据实际需求快速扩展。数据自动均衡系统提供数据自动均衡功能确保数据在各节点间均匀分布从而提升查询性能和资源利用率。在线模式变更用户可以在不停机的情况下动态增删索引快速响应业务变化灵活地调整数据结构以满足不同场景的需求。存算分离支持在 3.0 版本中引入了存算分离可以通过多计算集群实现查询负载间的物理隔离以及读写负载隔离计算和存储资源可以独立扩展进一步提升了系统的灵活性和性能。 Unified统一之路 在大数据分析领域企业面临着多样化的分析需求往往需要部署多个工具或技术来应对不同场景。这种做法往往导致组件繁多、运维成本高昂、数据链路冗长以及数据重复存储等诸多问题。 数据仓库几经发展逐步从传统数据仓库演变为大数据平台/数据湖如今又迎来了现代化数据仓库对应的架构也在发生着变化。底层数据源类型从传统的结构化数据扩展为多种半结构化数据中间层从 ETL、数据仓库、数据湖相互独立演变为相互融合顶层则引入了数据科学、机器学习和人工智能应用。这些演变都对数据处理的时效性、灵活性与效率提出更高的要求。 在这样的背景下Doris 作为现代化统一数据仓库能够有效应对多样的分析场景。其 All-In-One 的设计理念不仅简化了数据的使用和管理还使企业将精力从复杂的数据基础设施管理转向上层的数据应用。 01 湖仓无界 “湖仓无界”即 Lakehouse是数据领域的全新概念。Apache Doris 作为一款现代化的数据仓库凭借其独特的架构完美诠释了这一理念。而 Apache Doris 之所以能被称为 Lakehouse主要得益于其两大特性 联邦查询能力Apache Doris 通过扩展 Catalog 和存储插件使用户无需将数据物理集中至统一的存储空间在保持各数据源独立性的同时仅借助 Apache Doris 即可实现多个异构数据源的统一分析既可以直查外部表以及存储文件、也可以执行内表和外表以及外表相互之间的关联分析。此外。目前 Apache Doris 已经支持了 10 余种主流湖、仓、关系型数据库的连接器。开放的数据湖特性Apache Doris 引入高吞吐读写 API也称之为 Data API 或 Storage API。打破了数据封闭性使外部引擎能直接、高效地访问和存储 Doris 中的数据无需受限于造成性能瓶颈的 JDBC/ODBC 协议。 凭借这些特性Apache Doris 既能作为强大的 SQL 查询引擎也能作为开放、灵活的数据湖实质上满足了 Lakehouse 的定义。 那么Apache Doris 与其他纯粹的 Lakehouse 相比较其优势在哪里 其核心在于“避免过早复杂性”这里我通过一个例子来说明。 对于许多业务团队而言其业务数据量可能仅有几百 GB甚至更少且尚未引入如 HDFS 这类复杂的数据架构。对于这种情况Apache Doris 只需简单的几个节点即可迅速投入使用部署过程极为简便。随着系统和业务需求的逐步复杂化比如需要集成机器学习引擎或查询 HDFS 上数据时凭借 Apache Doris 灵活的架构设计及弹性能够实现逐步的升级与演进无需在最开始就搭建复杂的系统。 许多用户在使用某些 Lakehouse 产品时感到不便其根源在于这些产品要求用户在数据量有限的情况下就搭建复杂的 HDFS 及多个组件这无疑增加了不必要的复杂性也即“过早复杂性”。相比之下Apache Doris 则秉持着从简单到复杂的逐步演进原则有效避免了这一问题。 02 半结构化数据分析 2024 年我们注意到一个显著的趋势将近一半的 Elasticsearch 使用者倾向于采用 Apache Doris 来替代 Elasticsearch。尽管 Elasticsearch 在半结构化数据分析领域占有一席之地但随着 Apache Doris 的持续突破正逐步成为未来半结构化数据分析的核心引擎。这一转变主要归功于三大关键点 复合数据类型支持 Array、Map、Struct、JSON 复合数据类型常用于用户行为和画像分析、点查、查询数据湖中 Parquet ORC 等格式数据的场景。Variant 数据类型支持 Variant 数据类型支持存储半结构化数据以及包含不同数据类型如整数、字符串、布尔值等的复杂数据结构无需提前在表结构中定义具体的列。擅长处理复杂多变的嵌套结构可自动推断列信息并合并到现有 Schema支持动态子列的存储。同时表中可以同时包含灵活的 Variant 列和静态列提供更大的存储和查询灵活性。相较于 JSON 类型存储空间减少了约 65%查询速度提升超 10 倍。String 数据类型优化了正则匹配和子串匹配算法引入了 NGram BloomFilter提升了使用 LIKE 语句时的查询速度同时通过倒排索引对文本进行细粒度分词使得用户可以使用 MATCH 等相关语句实现文本快速检索。 Elastic弹性之路 弹性的重要性在于它能够提升数据库的灵活性、可扩展性以及资源利用率同时可降低企业的运维成本和潜在风险。为此Apache Doris 在提升弹性方面也不断努力。 01 存算一体 在存算一体时代Apache Doris 便提供了弹性资源管理功能先是推出了基于资源标签Resource Tag的物理隔离方案后在 2.1 版本中推出了 Workload Group 管理方案能够基于 CGroup 技术在每台机器上实现 CPU 资源的硬限和软限。在存储方面也很早便实现了冷热分层策略热数据存储在成本更高的 SSD 盘上而冷数据则存储在相对低成本的 HDD 盘甚至更为廉价的对象存储上保存方式也从多副本变为单副本冷数据无需占用宝贵的本地机器资源从而避免了因扩充容量而购买更多机器的需求。 02 存算分离全新架构 而在 3.0 版本中Apache Doris 开始支持存算分离模式基于云原生存算分离的架构用户可以通过多计算集群实现查询负载间的物理隔离以及读写负载隔离并借助对象存储或 HDFS 等低成本的共享存储系统来大幅降低存储成本。在存算分离架构中元数据存储在 FoundationDB数据则存储在 S3 等对象存储中。在这一架构下FE 和 BE 节点均变得无状态所有数据都存放于共享的对象存储而非本地存储。同时为了提升性能Doris 引入了高速缓存机制。 针对存算分离是否会影响性能的问题我们进行了存算一体模式和存算分离模式在不同缓存下的 TPC-DS 1TB 性能测试。结果显示在缓存命中的情况下性能基本无损部分命中缓存时性能损耗约为 10%而在缓存不命中的情况下性能损失约为 30%。但相较于业内其他同类系统存算分离模式下的 Apache Doris 仍有着极为明显的性能优势。 03 两种部署形态融合 弹性的资源管理始终是数据分析基础设施的永恒追求。我们提供存算一体和存算分离两种部署形态以便发挥各自的优势存算一体部署简便且性能优越而存算分离则支持灵活的独立扩缩容。 进一步来看存算分离的部署需要依赖高性能的对象存储或文件系统以及充足的网络带宽。如果企业的存储基础设施或网络带宽受限存算分离的性能可能受到影响。这也解释了为何存算分离常与云原生技术相关联虽然存算分离并非云原生特有但云原生环境为其提供了高带宽和优质对象存储为其提供了理想的设施基础。 当前一些用户认为在开始时就要选择存算一体或存算分离的部署形态并不合理尤其是在数据量较小时。因此Apache Doris 未来计划融合这两种部署形态用户无需再纠结于选择哪种部署形态无论是从存算一体切换到存算分离还是反向切换都可以通过简单的参数配置实现自动切换而无需重建集群或重新导入数据。 2025探索更多可能性 展望 2025在功能需求上Apache Doris 将更加专注于用户需求聚焦四大板块强化其技术实力 内置 CDC 同步Apache Doris 虽已支持丰富的数据导入方式但 CDC 仍依赖外部工具或生态合作伙伴。未来将实现内置 CDC 同步功能目前我们已研发出初步版本支持从众多 TP 数据库直接 CDC 导入数据。支持增量数据处理投入大量人力支持基于增量式的批量处理。这种方式不同于 Spark 或传统 Hive 的批量模式具备更高的时效性能够显著提升数据处理效率。完善湖仓一体兼容 Trino/Presto Connector 框架这意味着 Apache Doris 将能够直接使用 Trino 和 Presto 所支持的功能无需重复开发。同时还将完善高吞吐读写的 Data API以提升整体性能。存算一体和存算分离部署形态融合Apache Doris 未来计划融合这两种部署形态用户无需再纠结于选择哪种部署形态无论是从存算一体切换到存算分离还是反向切换都可以通过简单的参数配置实现自动切换而无需重建集群或重新导入数据避免架构过早复杂性。 在非功能需求上Apache Doris 将全力投入于三个方向持续发力 更优提升导入性能将查询性能从秒级提升为亚秒级为保持全球查询性能第一的位置而持续发力。更稳实行更加严格的版本迭代策略三位版本将不再引入新 Feature专注于 Bug 的修复并加强更多测试覆盖。实现内核插件化基于插件化引入新功能与周边功能。更易用对于配置较为复杂的参数未来将努力简化参数配置并提升产品文档质量完善周边生态工具以增强用户使用体验。 Doris Summit Asia 2024 峰会回放 PPT 资料现已公开前往 Summit 官网 点击查阅或下载