手机搭建个人网站页面模板怎么用

当前位置: 首页 > news >正文

手机搭建个人网站,页面模板怎么用,网络营销方式有哪些视频,flash属于网页制作平台吗公司有一套StarRocks的大数据库在大股东的腾讯云环境中#xff0c;通过腾讯云的对等连接打通#xff0c;通过dolphinscheduler调度datax离线抽取数据和SQL计算汇总#xff0c;还有在大股东的特有的Flink集群环境#xff0c;该环境开发了flink开发程序包部署#xff0c;实时…     公司有一套StarRocks的大数据库在大股东的腾讯云环境中通过腾讯云的对等连接打通通过dolphinscheduler调度datax离线抽取数据和SQL计算汇总还有在大股东的特有的Flink集群环境该环境开发了flink开发程序包部署实时同步数据。      公司业务帆软报表平台有40张左右的报表连接的Starrocks大数据库。Starrocks大数据库整个库大小超过13TB      因各种原因大股东的腾讯云环境不再让使用打通的对等连接也会断开需要把Starrocks及相关的服务等迁移回来       1Dolphinscheduler分布式调度调度Datax抽取脚本和SQL计算汇总脚本       2重新部署StarRocks数据库集群       3实时同步几十张实时同步的表       4同步现有StarRocks的历史数据到新的集群中       5实时Flink聚合的表    因涉及的报表和东西多再2023年就公司说要迁回来但情况一说太复杂了就一直拖着不迁移。    但到2024年45月份公司大股东说必须要迁移公司让尽快研究StarRocks迁移事情这件事又落自己头上想想头大这么多事情测试方案部署环境买机器实时同步历史数据处理等等这次没办法只能向前做从2024年5月份到现在2024年11月份迁移工作是被动做做停停的到现在完成差不多抽空把过程总结写下来     1Dolphinscheduler分布式调度         1.1  为省成本请大股东的运维远程在公司腾讯云现有机器上部署DS调度部署的版本一致在个别机器内存做扩容         1.2  以前海豚的调度元数据库导出部署到公司的MySQL这样任务和调度就和以前一样。         1.3  海豚调度的Datax脚本因以前他们用了CFS服务共享磁盘用一套这边做不了只能在3台机器上各部署一套路径一致的datax抽取脚本      2部署StarRocks数据库集群            考虑兼容问题没有使用最新的StarRocks 3 版本用的腾讯云EMR集群的Starrocks2.5版本省去自建和维护的很多事情。      3实时同步          1使用Flink集群               以前做的程序是在其特殊Flink API环境开发拿以前的程序直接部署到Flink集群就无法使用要么重新开发我不擅长Flink这块只能放弃          2腾讯云—流计算Oceanus              咨询腾讯云的技术支持推荐Oceanus可以实现Flink SQL实现实时同步发现还有多表同时同步的觉得终于可以解决这个实时同步问题了就买了一个月的Oceanus服务测试了多表通过Microsoft VS Code搜索目录下的帆软报表找出实时同步的表然后按库多表同时同步但是部署6个任务后按库多表同时同步经常报错不稳定后来咨询腾讯云说多表同步不稳定的确不推荐但我一个表一个job任务那要多少任务肯定不行没办法不能使用          3Java程序实现实时同步            研发同学说以前做个单个表的同步没办法只能让他通过java程序来实现同步通过读取binlog程序写到库里后来把这6个整理的几十个任务表提供他写java程序同步可以使用。       4StarRocks历史数据同步          咨询大股东他们迁移StarRocks到腾讯云的EMR历史数据是通过StarRocks外部表来做但公司说要节省成本折扣更多把StarRocks买到另外一个腾讯云账号上再打通到现在公司的腾讯云这样就有3个腾讯云账号又没法把新账号腾讯云和大股东腾讯云打通结果导致2个Starrocks不通不能通过外部迁移历史数据没办法这时就想到用自己做的开源pydatax来同步但要拼接处src_table_column表直接通过SQL就可以出来如下   select TABLE_NAME,GROUP_CONCAT(replace(COLUMN_NAME,etl_process_time,now() as etl_process_time)) cols from (select TABLE_NAME,COLUMN_NAME,ORDINAL_POSITION from information_schema.columns where TABLE_SCHEMAdb and TABLE_NAME like bo_ods% order by TABLE_NAME asc,ORDINAL_POSITION asc ) t GROUP BY TABLE_NAME order by TABLE_NAME asc以上表是离线的实时的也是类似。获取到src_table_column信息通过下列SQL获取写入到datax_config_wm表 SELECT TABLE_NAMe, CONCAT(INSERT INTO datax_config_wm (type, src_table_name, json_id, des_table_name, relation,dcondition, ,src_table_column, des_table_column, server_type, ordernum, status, etl_type, etl_column, etl_num, last_etl_date, note, ,create_time) VALUES (1,,TABLE_NAMe,,,9,,,TABLE_NAMe,,,t,,11,,,GROUP_CONCAT(COLUMN_NAME),,ss#stt) FROM ( select * from information_schema.columns where TABLE_SCHEMAreport_srdw and TABLE_NAME in ( select TABLE_NAME from information_schema.tables where TABLE_SCHEMAreport_srdw and ENGINEStarRocks and TABLE_NAME like boods%) order by TABLE_NAME asc,ORDINAL_POSITION asc ) t group by TABLE_NAME;注这个ss#stt字符是用来替换成下列字符:        , *, 0, 22.001, 1, 0, , 14, CURRENT_DATE(), wm, now());生成完成后copy和修改pydatax让其读取配置表datax_config_wm离线是T1同步历史数据。     已经部署的海豚调度已经每天在同步数据。历史数据就通过pydatax同步数据遇到特别大的表导致抽取查询超时修改参数成6000秒 set global query_timeout6000;但改完个别表大还是超时这时对这个表分割多次同步直接修改datax_config_wm的加上范围就可。     几天时间实时和离线的322张表历史数据就同步完成部分大表抽取信息如下看出Datax的能达到12万行/秒的速度6.6亿多条同步要 91分钟。         5实时Flink聚合的表        帆软报表用到实时聚合表但是研发同学没有实时聚合功能查询实时报表分析虽然做了好多聚合表但实际只有5张表使用        想想就使用StarRocks 的物化视图替换原有聚合表对报表透明无感知这5张表的聚合对应修改成聚合后的物化视图。      上线后有3张物化视图的源实时表老是同步出错不得不取实时表改成T1的数据表和产品经理沟通后对应的报表的显示的实时也加上昨天。     以上修改后正式切换线上帆软报表连接成新的StarRocks 库观察线上的客户使用情况。    总结        1该迁移前后花了好几个月时间有点长        2难到不难大量的细心的工作需要做        3数据同步工具 pydatax 又一次出色完成其高效简单的数据迁移任务。