首页 - 技术栈

邯郸网站建设报价电商网站建设平台

作者: 五速梦信息网
时间: 2026年06月19日 11:03

当前位置：首页 > news >正文

邯郸网站建设报价,电商网站建设平台,php做简单网站教程视频,西安稳定的seo#x1f935;♂️ 个人主页#xff1a;艾派森的个人主页 ✍#x1f3fb;作者简介#xff1a;Python学习者 #x1f40b; 希望大家多多支持#xff0c;我们一起进步#xff01;#x1f604; 如果文章对你有帮助的话#xff0c; 欢迎评论 #x1f4ac;点赞#x1f4… ♂️ 个人主页艾派森的个人主页 ✍作者简介Python学习者希望大家多多支持我们一起进步如果文章对你有帮助的话欢迎评论点赞收藏加关注喜欢大数据分析项目的小伙伴希望可以多多支持该系列的其他文章大数据分析案例合集大数据分析案例-基于随机森林算法预测人类预期寿命大数据分析案例-基于随机森林算法的商品评价情感分析大数据分析案例-用RFM模型对客户价值分析(聚类)大数据分析案例-对电信客户流失分析预警预测大数据分析案例-基于随机森林模型对北京房价进行预测大数据分析案例-基于RFM模型对电商客户价值分析大数据分析案例-基于逻辑回归算法构建垃圾邮件分类器模型大数据分析案例-基于决策树算法构建员工离职预测模型大数据分析案例-基于KNN算法对茅台股票进行预测大数据分析案例-基于多元线性回归算法构建广告投放收益模型大数据分析案例-基于随机森林算法构建返乡人群预测模型大数据分析案例-基于决策树算法构建金融反欺诈分类模型 1.项目背景乳腺癌是女性最常见的恶性肿瘤之一在全球范围内都具有高发病率和死亡率。根据世界卫生组织WHO的统计数据每年全球约有200万新发乳腺癌病例并且每年大约有60万患者因乳腺癌而死亡。乳腺癌的早期检测和诊断对于提高治愈率和生存率至关重要因为在早期阶段进行有效治疗可以显著改善患者的预后。随着医学影像技术的进步乳腺癌的早期检测变得更加准确和可靠。然而随着数据量的增加传统的乳腺癌诊断方法面临着一些挑战例如特征提取复杂容易受到主观因素影响且存在一定的误诊率。因此利用机器学习和人工智能技术对乳腺癌进行分类预测成为了一个备受关注的研究领域。 LightGBMLight Gradient Boosting Machine是一种基于梯度提升决策树的机器学习算法它以其高效性和准确性在分类、回归和排名任务中广泛应用。相比于传统的梯度提升决策树算法LightGBM具有更快的训练速度和更低的内存占用因此在大规模数据集上表现优异。因此本研究旨在利用LightGBM算法构建乳腺癌分类预测模型通过对医学影像和患者临床数据进行综合分析实现对乳腺癌患者的准确分类和预测。通过该预测模型可以帮助医生快速、准确地诊断乳腺癌并及早制定个性化治疗方案从而提高患者的治愈率和生存率。此外该研究还有望为乳腺癌的早期筛查和诊断提供一种可行的辅助手段为公共卫生领域提供有益的帮助。 2.项目简介 2.1项目说明本项目旨在利用LightGBM算法构建乳腺癌分类预测模型结合医学影像数据和患者临床数据对乳腺癌患者进行准确的分类和预测。通过该预测模型实现以下目标提高乳腺癌早期检测的准确性利用机器学习算法对医学影像数据进行分析帮助医生及早发现乳腺癌病变提高早期诊断的准确性。改善乳腺癌患者治疗策略通过对患者临床数据的综合分析预测乳腺癌患者的病情和预后为医生制定个性化治疗方案提供依据。辅助医生决策将构建的预测模型作为辅助工具为医生在乳腺癌诊断和治疗过程中提供科学客观的参考意见。通过本项目的实施我们期望构建出一个基于LightGBM算法的乳腺癌分类预测模型并将其应用于医学影像和临床数据的分析中。这个预测模型可以帮助医生在乳腺癌早期发现和治疗方案制定上做出更加准确和科学的决策从而提高乳腺癌患者的治愈率和生存率。此外项目的研究结果和模型也可能会被用于学术研究和学术交流并为乳腺癌分类预测领域的进一步研究提供有益的参考。 2.2数据说明本数据集来源于kaggleBreast Cancer Dataset | Kaggle 原始数据集共有569条32个特征变量。 2.3技术工具 Python版本:3.9 代码编辑器jupyter notebook 3.算法原理 LightGBM算法基本原理 GBDT算法的基本思想是把上一轮的训练残差作为下一轮学习器训练的输入即每一次的输入数据都依赖于上一次训练的输出结果。因此这种训练迭代过程就需要多次对整个数据集进行遍历当数据集样本较多或者维数过高时会增加算法运算的时间成本并且消耗更高的内存资源。而XGBoost算法作为GBDT的一种改进在训练时是基于一种预排序的思想来寻找特征中的最佳分割点这种训练方式同样也会导致内存空间消耗极大例如算法不仅需要保存数据的特征值还需要保存特征排序的结果在遍历每一个分割点的时候都需要进行分裂增益的计算消耗的代价大特别是当数据量级较大时这种方式会消耗过多时间。为了对这些问题进行优化2017年微软公司提出了LightGBM算法Light Gradient Boosting Machine该算法也是基于GBDT算法的改进但相较于GBDT、XGBoost算法LightGBM算法有效地解决了处理海量数据的问题在实际应用中取得出色的效果。LightGBM算法主要包括以下几个特点直方图算法寻找最佳分裂点、直方图差加速、Leaf-wise树生长策略、GOSS、EFB、支持类别型特征、高效并行以及Cache命中率优化等。 1直方图Histogram算法减少大量计算与内存占用 XGBoost算法在进行分裂时需要预先对每一个特征的原始数据进行预排序而直方图Histogram算法则是对特征的原始数据进行“分桶#bin”把数据划分到不同的离散区域中再对离散数据进行遍历寻找最优划分点。这里针对特征值划分的每一个“桶”有两层含义一个是每个“桶”中样本的数量另一个是每个“桶”中样本的梯度和一阶梯度和的平方的均值等价于均方损失。可以看出通过直方图算法可以让模型的复杂度变得更低并且特征“分桶”后仅保存了的离散值大大降低内存的占用率。其次这种“分桶”的方式从某种角度来看相当于对模型增加了正则化可以避免模型出现过拟合。值得注意的是直方图算法是使用了bin代替原始数据相当于增加了正则化这也意味着有更多的细节特征会被丢弃相似的数据可能被划分到相同的桶中所以bin的数量选择决定了正则化的程度bin越少惩罚越严重过拟合的风险就越低。另外在LightGBM直方图算法中还包括一种直方图作差优化即LightGBM在得到一个叶子的直方图后能够通过直方图作差的方式用极小的代价得到其兄弟叶子的直方图如上图所示当得到某个叶子的直方图和父节点直方图后另一个兄弟叶子直方图也能够很快得到利用这种方式LightGBM算法速度得到进一步提升。 2带深度限制的Leaf-wise的叶子生长策略减少大量计算、避免过拟合 GBDT与XGBoost模型在叶子生长策略上均采用按层level-wise分裂的方式这种方式在分裂时会针对同一层的每一个节点即每次迭代都要遍历整个数据集中的全部数据这种方式虽然可以使每一层的叶子节点并行完成并控制模型的复杂度但也会产生许多不必要搜索或分裂从而消耗更多的运行内存增加计算成本。而LightGBM算法对其进行了改进使用了按叶子节点leaf-wise分裂的生长方式即每次是对所有叶子中分裂增益最大的叶子节点进行分裂其他叶子节点则不会分裂。这种分裂方式比按层分裂会带来更小的误差并且加快算法的学习速度但由于没有对其他叶子进行分裂会使得分裂结果不够细化并且在每层中只对一个叶子不断进行分裂将增大树的深度造成模型过拟合[25]。因此LightGBM算法在按叶子节点生长过程中会限制树的深度来避免过拟合。 3单边梯度采样技术 (减少样本角度) 在梯度提升算法中每个样本都有不同梯度值样本的梯度可以反映对模型的贡献程度通常样本的梯度越大贡献给模型的信息增益越多而样本的梯度越小在模型中表现的会越好。举个例子来说这里的大梯度样本可以理解为“练习本中的综合性难题”小梯度样本可以理解为“练习本中的简单题”对于“简单题”平时做的再多再好而“难题”却做的很少在真正的“考试”时还是会表现不好。但并不意味着小梯度样本“简单题”就可以直接剔除不用参与训练因为若直接剔除小梯度样本数据的分布会发生改变从而影响模型的预测效果。因此LightGBM算法引入了单边梯度采样技术Gradient-based One-Side SamplingGOSS其基本思想就是从减少样本的角度出发利用样本的梯度大小信息作为样本重要性的考量保留所有梯度大的样本点“保留所有难题”对于梯度小的样本点“简单题”按比例进行随机采样这样既学习了小梯度样本的信息也学习了大梯度样本的信息“平时难题都做简单题做一部分在面临真正的考试时才可能稳定发挥甚至超水平发挥”在不改变原始数据分布的同时减小了样本数量提升了模型的训练速度。 4互斥特征捆绑减少特征角度高维度的数据通常是非常稀疏的并且特征之间存在互斥性例如通过one-hot编码后生成的几个特征不会同时为0这种数据对模型的效果和运行速度都有一定的影响。通过互斥特征捆绑算法Exclusive Feature BundlingEFB可以解决高维度数据稀疏性问题如下图中设特征1、特征2以及特征3互为互斥的稀疏特征通过EFB算法将三个特征捆绑为一个稠密的新特征然后用这一个新特征替代原来的三个特征从而实现不损失信息的情况下减少特征维度避免不必要0值的计算提升梯度增强算法的速度。总的来说LightGBM是一个性能高度优化的GBDT 算法也可以看成是针对XGBoost的优化算法可以将LightGBM的优化用公式表达如下式LightGBM XGBoost Histogram GOSS EFB 4.项目实施步骤 4.1理解数据导入本次实验用到的第三方库并加载数据查看数据大小查看数据基本信息查看数值型变量的描述性统计 4.2数据预处理删除缺失值和重复值发现数据大小没有发生变化说明原始数据集不存在缺失值和重复值 4.3探索性数据分析 4.4特征工程对非数值变量进行编码处理准备建模用到的数据并拆分数据集为训练集和测试集 4.5模型构建对比这四个模型我们发现LightGBM算法模型的准确率最高故我们最终选择其作为最终的模型。 4.6模型评估特征重要性评分 4.7模型预测 5.实验总结在本次实验中我们成功地基于LightGBM算法构建了乳腺癌分类预测模型。通过对医学影像数据和患者临床数据的综合分析该模型能够对乳腺癌患者进行准确的分类和预测为医生提供科学客观的诊断参考意见。实验步骤包括数据收集、数据预处理、特征工程、数据集划分、模型构建、、模型评估、结果解释和可视化。在数据预处理阶段我们对收集到的数据进行了清洗、去噪和归一化处理确保了数据的质量和可用性。在特征工程阶段我们从医学影像和临床数据中提取了有意义的特征为模型构建提供了输入。在模型构建阶段我们采用了LightGBM算法该算法以其高效和准确的特性在分类和回归任务中表现出色。在模型评估阶段我们使用测试集对模型进行了评估统计了分类准确率、召回率、F1值等指标验证了模型的性能。实验结果表明我们构建的乳腺癌分类预测模型在准确性和可靠性上都取得了良好的表现。该模型可以帮助医生在乳腺癌的早期检测和治疗方案制定上做出更准确的决策从而提高了乳腺癌患者的治愈率和生存率。同时该模型也具有较高的可解释性能够对预测结果进行解释和可视化分析。最终我们将构建好的乳腺癌分类预测模型部署到了实际医疗环境中供医生使用。这将有效提高乳腺癌的早期诊断准确性和效率为乳腺癌的治疗和管理提供有益的帮助。我们相信该实验结果和模型还可以为乳腺癌分类预测领域的进一步研究提供参考并在其他医学领域的机器学习应用中产生积极的影响。虽然本次实验取得了较为满意的结果但也存在一些局限性。例如数据量较小或者不均衡可能会影响模型的表现。因此未来可以继续扩大数据集规模并采用更多的数据增强技术来改进模型的性能。此外还可以尝试结合其他机器学习算法或深度学习方法进一步提高乳腺癌分类预测模型的准确性和稳健性。总体来说该实验为乳腺癌诊断与治疗领域的机器学习应用提供了有益的探索和实践。心得与体会通过这次Python项目实战我学到了许多新的知识这是一个让我把书本上的理论知识运用于实践中的好机会。原先学的时候感叹学的资料太难懂此刻想来有些其实并不难关键在于理解。在这次实战中还锻炼了我其他方面的潜力提高了我的综合素质。首先它锻炼了我做项目的潜力提高了独立思考问题、自我动手操作的潜力在工作的过程中复习了以前学习过的知识并掌握了一些应用知识的技巧等在此次实战中我还学会了下面几点工作学习心态 1继续学习不断提升理论涵养。在信息时代学习是不断地汲取新信息获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后我会用心响应单位号召结合工作实际不断学习理论、业务知识和社会知识用先进的理论武装头脑用精良的业务知识提升潜力以广博的社会知识拓展视野。 2努力实践自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值也只有将理论付诸于实践才能使理论得以检验。同样一个人的价值也是透过实践活动来实现的也只有透过实践才能锻炼人的品质彰显人的意志。 3提高工作用心性和主动性。实习是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土也分明感受到了沉甸甸的职责。在今后的工作和生活中我将继续学习深入实践不断提升自我努力创造业绩继续创造更多的价值。这次Python实战不仅仅使我学到了知识丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中为实现理想而努力。源代码 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns sns.set(fontSimHei) import warnings warnings.filterwarnings(ignore)df pd.read_csv(breast-cancer.csv) df.head() df.shape df.info() df.describe().T df.dropna(inplaceTrue) df.drop_duplicates(inplaceTrue) df.shape df[diagnosis].value_counts().plot(kindbar, color[blue, red]) print(df[diagnosis].value_counts()) plt.show() sns.scatterplot(xid,yradius_mean,datadf,huediagnosis) plt.show() sns.scatterplot(xid,ytexture_mean,datadf,huediagnosis) plt.show() sns.distplot(df.perimeter_mean,kdeTrue,colorg) plt.show() sns.distplot(df.area_mean,kdeFalse,colorb) plt.show() sns.regplot(xid,ysmoothness_mean,datadf) plt.show() sns.lmplot(xid,yradius_worst,datadf,huediagnosis) plt.show() sns.distplot(df[perimeter_worst],kdeTrue,colorm) plt.show() df[diagnosis].replace(to_replace{B:0,M:1},inplaceTrue) df[diagnosis].value_counts() from sklearn.model_selection import train_test_split

准备建模的数据

X df.drop(diagnosis,axis1) y df[diagnosis]

划分数据集

X_train,X_test,y_train,y_test train_test_split(X,y,test_size0.2,random_state42) print(训练集大小,X_train.shape[0]) print(测试集大小,X_test.shape[0])

构建逻辑回归模型

from sklearn.linear_model import LogisticRegression lr LogisticRegression() lr.fit(X_train,y_train) print(逻辑回归模型准确率,lr.score(X_test,y_test))

构建KNN模型

from sklearn.neighbors import KNeighborsClassifier knn KNeighborsClassifier() knn.fit(X_train,y_train) print(KNN模型准确率,knn.score(X_test,y_test))

构建决策树模型

from sklearn.tree import DecisionTreeClassifier tree DecisionTreeClassifier() tree.fit(X_train,y_train) print(决策树模型准确率,tree.score(X_test,y_test))

构建lightgbm模型

from lightgbm import LGBMClassifier gbm LGBMClassifier() gbm.fit(X_train,y_train) print(lightgbm模型准确率,gbm.score(X_test,y_test)) from sklearn.metrics import f1_score,r2_score,confusion_matrix,classification_report,auc,roc_curve

模型评估

y_pred gbm.predict(X_test) print(gbm模型的F1值,f1_score(y_test,y_pred)) print(gbm模型的R方值,r2_score(y_test,y_pred)) print(模型混淆矩阵:,\n,confusion_matrix(y_test,y_pred)) print(模型分类报告:,\n,classification_report(y_test,y_pred))

画出ROC曲线

y_prob gbm.predict_proba(X_test)[:,1] false_positive_rate, true_positive_rate, thresholds roc_curve(y_test, y_prob) roc auc(false_positive_rate, true_positive_rate) plt.title(ROC) plt.plot(false_positive_rate,true_positive_rate, colorred,label AUC %0.2f % roc) plt.legend(loc lower right) plt.plot([0, 1], [0, 1],linestyle–) plt.axis(tight) plt.ylabel(True Positive Rate) plt.xlabel(False Positive Rate) plt.show()

特征重要性评分

feat_labels X_train.columns[0:] importances gbm.featureimportances indices np.argsort(importances)[::-1] index_list [] value_list [] for f,j in zip(range(X_train.shape[1]),indices):index_list.append(feat_labels[j])value_list.append(importances[j]) plt.figure(figsize(10,6)) plt.barh(index_list[::-1],value_list[::-1]) plt.yticks(fontsize12) plt.title(各特征重要程度排序,fontsize14) plt.show()