首页 - 技术栈

门户网站建设计入什么科目wordpress 许愿墙

作者: 五速梦信息网
时间: 2026年03月21日 10:24

当前位置：首页 > news >正文

门户网站建设计入什么科目,wordpress 许愿墙,网站拒绝了您的访问,交易猫钓鱼网站制作教学各位大佬好 #xff0c;这里是阿川的博客#xff0c;祝您变得更强个人主页#xff1a;在线OJ的阿川大佬的支持和鼓励#xff0c;将是我成长路上最大的动力阿川水平有限#xff0c;如有错误#xff0c;欢迎大佬指正数据采集与预处理前必看【大数据导论】—大数据序… 各位大佬好这里是阿川的博客祝您变得更强个人主页在线OJ的阿川大佬的支持和鼓励将是我成长路上最大的动力阿川水平有限如有错误欢迎大佬指正数据采集与预处理前必看【大数据导论】—大数据序言【大数据导论】—大数据、人工智能、云计算、物联网、区块链序言【大数据导论】—大数据基础知识【大数据导论】—大数据应用目录大数据步骤其中数据采集其中数据清洗其中数据转换其中数据脱敏大数据步骤数据采集数据清洗数据处理数据分析数据可视化
其中数据采集通过数据采集可以获取传感器、互联网、日志文件、企业系统等数据再通过数据预处理数据清洗数据转换数据脱敏从而便于后一步的分析被采集数据类型
结构化数据半结构化数据非结构化数据
大数据特点数据量大数据类型丰富处理速度快
数据采集比较
数据采集特点全面性多维性高效性
主要数据源日志文件数据传感器数据互联网数据企业业务系统数据
数据采集工具 Chukwa Flume Scribe 分布式消息订阅分发 Kafka 实时在线处理低延迟批量离线处理高吞吐量 ETL 实现大规模数据加载网络数据采集通过网络爬虫、API接口从网站上获取非结构化数据信息且储存为统一的本地结构化数据文件当中网络爬虫爬虫节点控制节点资源库控制节点与爬虫节点关系网络爬虫的类型通用网络爬虫又称全网爬虫主要为门户站点搜索引擎大型Web服务提供商采集数据通用网络爬虫结构页面爬行页面分析连接过滤页面数据库 URL队列初始URL集合爬行策略深度优先策略广度优先策略聚焦网络爬虫又称主题网络爬虫选择性爬取与预先定好的主题相关页面的网络爬虫爬虫步骤过滤主题无关链接有用链接放入等待抓取URL队列根据一定搜索策略选择下一步抓取的网页URL 增量式网络爬虫对已下载的网页采取增量式更新和只爬行新产生或已发生变化网页爬虫且保证所爬行页面是尽可能新的页面爬行策略广度优先策略PageRank优先策略优点有效减少数据下载量及时更新已爬行的网页减少时间和空间耗费深层网络爬虫利用一些关键词将搜索表达后的页面提取出来基本功能模块爬行控制器 LVS控制器解析器响应分析器表单分析器表单处理器内部数据结构 URL列表LVS表爬虫框架 Scrapy爬虫基于Python实现的框架该框架可以运行在Linux、Windows、macOS上该框架速度快、扩展性强、使用简便且可以运行在本地或者云端用户只需要开发几个模块就可以实现爬虫效果常常被用于监测、数据挖掘、自动化测试市面上基于Python的爬虫框架还有Crawley、Portia、Newspaper、Python-goose、Beautiful Soup、Mechanize、Selenium、Cola 反爬机制数据是宝贵的资源拥有数据方不愿意他人获取自己的数据为了保护企业网站和网站数据从而运用了反扒技术缺点反爬机制过于严格可能会误伤到真正的用户请求
其中数据清洗按照一定的规则发现并纠正含有错误值、缺失值、异常值、可疑数据使脏的数据变成干净的数据的步骤
数据清洗步骤检查数据一致性处理缺失值、重复值、异常/无效值、数据类型有误数据当中处理缺失值估算样本均值中位数众数整例删除直接剔除缺失值但可能导致有效样本量大大减少更适合关键变量缺失因为这样异常值或缺失值的样本比重很小变量删除变量缺失值很多且删除该变量对问题影响不大从而减少共分析的变量数目且没有改变样本量成对删除采用一些特殊码替换缺失值且保留全部变量和样本从而最大限度地保留可用信息处理异常/无效值根据每个变量合理的取值范围和相互关系检查数据是否合乎要求处理重复值对于数据要进行重复性检验否则重复值的存在会影响数据分析和挖掘结果的准确性
数据清洗注意事项注意数据类型转换数据类型会影响到后面的数据处理分析环节所以要明确每个字段的数据类型优先缺失值、异常/无效值和数据类型转换操作最后重复值处理在对缺失值、异常/无效值进行处理时候要根据业务需求进行填充处理统计值填充、零值填充、前后值填充进行数据清洗前要对数据表进行查看要了解表的结构从而发现要处理的值数据量大小关系也决定着数据处理方式当总数据量较大选择直接删除处理;当总数据量较小认真对数据进行处理当数据导入数据表之后需要将所有列一个个进行清洗从而保证数据处理的彻底性
其中数据转换将数据转化成适合处理的形式
数据转换策略平滑处理聚集处理数据泛化处理数据规范化处理属性构造处理当中平滑处理除去数据中的噪声被测量的变量随机错误的变化平滑处理方法分箱被平滑数据点的近邻点对一组排序数据进行平滑处理排序后的数据分配到若干个箱子中分配方法有等高方法每个箱子中元素的个数相同例子等宽方法每个箱子的间距取值相同例子回归可以使用拟合函数对数据进行平滑处理聚类通过聚类分析方法可以帮助发现异常数据聚集处理对数据进行汇总操作获得每月或每年总额构建数据立方体进行多粒度分析数据泛化处理用更抽象的概念来取代低层次的数据对象例如用街道属性来取代城市、国家用年龄属性来取代年轻、中年、老年适用场景神经网络基于距离计算的最近邻分类聚类挖掘的数据预处理数据规范化处理将属性值按比例缩放使之落入一个特定的区间从而消除数值型数据因大小不一而造成结果偏差方法 Max-Min 对被转换的数据进行线性转换例子注意当有新的值加入或删除的时候可能会导致新的最大值或最小值Z-Score 将不同量级的数据统一转化成同一量级的数据不需要知道数据集中的最大值最小值且对离群点规范化效果好统一用计算出的真实值衡量不受数据量级的影响从而保证数据间的可比性消除量级给分析带来的不便例子注意规范化处理需要数据分布符合正态分布且该处理会消除数据具有的实际意义小数定标通过直观简单的移动数据值的小数位数来达到规范化的目的例子注意小数定标法并没有消除属性间的权重差异属性构造处理根据已有属性集及构造新属性后续数据处理直接使用新增的属性例如利用质量、体积属性构建出新属性密度
其中数据脱敏在给定的规则策略下对敏感数据进行变换修改从而在很大程度上解决敏感数据在非可信环境中使用问题
数据脱敏原则当中开发、测试以及大数据类业务不受脱敏的影响数据一致性和有效性数据漂白抹去数据中的敏感内容保持原有的数据特征数据脱敏前后必须保证数据特征的保持例如身份证业务规则和数据关联性数据脱敏时数据关联性主外键关联性、关键字段的业务语义关联性及业务保持不变
数据脱敏方法数据替换用设置的固定虚构值替换真值无效化对数据值的截断、加密、隐藏随机化随机数据代替真值偏移和取整重要随机移位改变数字数据掩码屏蔽针对账户类数据银行卡号、身份证号部分信息进行脱敏灵活编码需要特殊脱敏规则时可采用灵活编码满足各种可能的脱敏规则
好的到此为止啦祝您变得更强想说的话学习来源厦门大学林子雨老师的《大数据导论》反反复复学习了5遍哈并且做了相应的练习然后才进行的这篇博客的书写实不相瞒写的这篇博客要写六个小时以上加上自己学习和纸质笔记共八小时吧很累希望大佬支持一下道阻且长行则将至个人主页在线OJ的阿川大佬的支持和鼓励将是我成长路上最大的动力

门户网站建设计入什么科目wordpress 许愿墙

相关文章

门户网站建设会议纪要黄页公司

门户网站建设和运行招标公告建筑信息平台官网

门户网站建设公司价位设计公司一般多少人

门户网站建设目标百度经验登录入口

门户网站建设企业东莞网络营销网络推广系统

门户网站建设企业高港网站建设

网页设计创建站点教程北京建设教育协会官网

网页设计成品网站锦州网站建设排行榜

网页设计比较优秀的网站开一家做网站的公司

网页设计网站维护wordpress表单支付

网页设计网站广州网站建设 seo

网页上传网站wordpress 扁平化主题

门户网站建设计入什么科目wordpress 许愿墙

相关文章

门户网站建设会议纪要黄页公司

门户网站建设和运行招标公告建筑信息平台官网

门户网站建设公司价位设计公司一般多少人

门户网站建设目标百度经验登录入口

门户网站建设企业东莞网络营销网络推广系统

门户网站建设企业高港网站建设

网页设计创建站点教程北京建设教育协会官网

网页设计成品网站锦州网站建设排行榜

网页设计比较优秀的网站开一家做网站的公司

网页设计 网站维护wordpress表单支付

网页设计 网站广州网站建设 seo

网页上传 网站wordpress 扁平化 主题

网页设计网站维护wordpress表单支付

网页设计网站广州网站建设 seo

网页上传网站wordpress 扁平化主题