当前位置：首页 > news >正文

阿里云免费网站备案,海南网络广播电视台少儿频道,WORDPRESS摘要无效,谷歌seo专员目录一、环境准备二、设置内核三、下载使用的数据四、创建工作区的句柄五、将数据上传到云存储空间六、访问笔记本中的数据七、创建新版本的数据资产八、清理资源机器学习项目的开始阶段通常涉及到探索性数据分析 (EDA)、数据预处理#xff08;清理、特征工程#xff09;以… 目录一、环境准备二、设置内核三、下载使用的数据四、创建工作区的句柄五、将数据上传到云存储空间六、访问笔记本中的数据七、创建新版本的数据资产八、清理资源机器学习项目的开始阶段通常涉及到探索性数据分析 (EDA)、数据预处理清理、特征工程以及生成机器学习模型原型来验证假设本教程介绍如何执行下列操作将数据上传到云存储空间创建 Azure 机器学习数据资产访问笔记本中的数据以进行交互式开发创建新版本的数据资产。关注TechLead分享AI全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验同济本复旦硕复旦机器人智能实验室成员阿里云认证的资深架构师项目管理专业人士上亿营收AI产品研发负责人。一、环境准备若要使用 Azure 机器学习你首先需要一个工作区。如果没有工作区请完成创建开始使用所需的资源以创建工作区并详细了解如何使用它。登录到工作室选择工作区如果尚未打开。在工作区中打开或创建一个笔记本如果要将代码复制/粘贴到单元格中请创建新的笔记本。或者从工作室的“示例”部分打开 tutorials/get-started-notebooks/explore-data.ipynb。然后选择“克隆”将笔记本添加到你的“文件”。二、设置内核在打开的笔记本上方的顶部栏中创建一个计算实例如果还没有计算实例。如果计算实例已停止请选择“启动计算”并等待它运行。确保右上角的内核为 Python 3.10 - SDK v2。如果不是请使用下拉列表选择此内核。如果看到一个横幅提示你需要进行身份验证请选择“身份验证”。三、下载使用的数据本文使用此 CSV 格式的信用卡客户数据示例作为示例。我们可以看到 Azure 机器学习资源中的步骤继续执行。在该资源中我们将直接在此笔记本所在的文件夹下创建一个本地文件夹并使用建议的名称“data”。选择三点下方的“打开终端”如此图所示终端窗口将在新选项卡中打开。请确保cd此笔记本所在的同一文件夹。例如如果笔记本位于名为 get-started-notebooks 的文件夹中 cd get-started-notebooks # modify this to the path where your notebook is located在终端窗口中输入以下命令将数据复制到计算实例 mkdir datacd data # the sub-folder where youll store the datawget https://azuremlexamples.blob.core.windows.net/datasets/credit_card/default_of_credit_card_clients.csv现在可以关闭终端窗口。四、创建工作区的句柄在深入了解代码之前需要一种方法来引用工作区。你将为工作区句柄创建 ml_client。然后你将使用 ml_client 来管理资源和作业。在下一个单元格中输入你的订阅 ID、资源组名称和工作区名称。若要查找这些值在右上方的 Azure 机器学习工作室工具栏中选择你的工作区名称。将工作区、资源组和订阅 ID 的值复制到代码中。需要复制一个值关闭区域并粘贴然后返回下一个值。 from azure.ai.ml import MLClient from azure.identity import DefaultAzureCredential from azure.ai.ml.entities import Data from azure.ai.ml.constants import AssetTypes# authenticate credential DefaultAzureCredential()# Get a handle to the workspace ml_client MLClient(credentialcredential,subscription_idSUBSCRIPTION_ID,resource_group_nameRESOURCE_GROUP,workspace_nameAML_WORKSPACE_NAME, )五、将数据上传到云存储空间 Azure 机器学习使用统一资源标识符 (URI)它们指向云中的存储位置。使用 URI 可以轻松访问笔记本和作业中的数据。数据 URI 格式类似于在 Web 浏览器中用于访问网页的 Web URL。例如从公共 https 服务器访问数据https://account_name.blob.core.windows.net/container_name/folder/file从 Azure Data Lake Gen 2 访问数据abfss://file_systemaccount_name.dfs.core.windows.net/folder/file Azure 机器学习数据资产类似于 Web 浏览器书签收藏夹。可以创建数据资产然后使用易记名称访问该资产而无需记住指向最常用数据的冗长存储路径 (URI)。通过创建数据资产还可以创建对数据源位置的引用及其元数据的副本。由于数据保留在其现有位置中因此不会产生额外的存储成本也不会损害数据源的完整性。可以从 Azure 机器学习数据存储、Azure 存储、公共 URL 和本地文件创建数据资产。下一个笔记本单元格会创建数据资产。此代码示例将原始数据文件上传到指定的云存储资源。每次创建数据资产时都需要为其创建唯一版本。如果版本已存在则会收到错误。在此代码中我们将对数据第一次读取使用“initial”。如果该版本已存在我们将跳过再次创建它。还可以省略 version 参数版本号会为你生成从 1 开始然后递增。在本文中我们使用名称“initial”作为第一个版本。创建生产机器学习管道教程也将使用此版本的数据因此在这里我们使用你将在该教程中再次看到的值。 from azure.ai.ml.entities import Data from azure.ai.ml.constants import AssetTypes# update the my_path variable to match the location of where you downloaded the data on your

local filesystemmy_path ./data/default_of_credit_card_clients.csv

set the version number of the data asset

v1 initialmy_data Data(namecredit-card,versionv1,descriptionCredit card data,pathmy_path,typeAssetTypes.URI_FILE, )## create data asset if it doesnt already exist: try:data_asset ml_client.data.get(namecredit-card, versionv1)print(fData asset already exists. Name: {my_data.name}, version: {my_data.version}) except:ml_client.data.create_or_update(my_data)print(fData asset created. Name: {my_data.name}, version: {my_data.version})可以通过选择左侧的“数据”来查看上传的数据。你将看到数据已上传且数据资产已创建此数据命名为 credit-card在“数据资产”选项卡中可以在“名称”列中看到它。此数据上传到工作区的默认数据存储 workspaceblobstore显示在“数据源”列中。 Azure 机器学习数据存储是对 Azure 上现有存储帐户的引用。数据存储具有以下优势一种通用且易用的 API可以与不同的存储类型Blob/文件/Azure Data Lake Storage和身份验证方法进行交互。一种在团队协作时更轻松地发现有用的数据存储的方式。在你的脚本中隐藏基于凭据的数据访问连接信息的方法服务主体/SAS/密钥。六、访问笔记本中的数据 Pandas 直接支持 URI - 此示例演示如何从 Azure 机器学习数据存储读取 CSV 文件 import pandas as pddf pd.read_csv(azureml://subscriptions/subid/resourcegroups/rgname/workspaces/workspace_name/datastores/datastore_name/paths/folder/filename.csv)# 但是如前所述可能很难记住这些 URI。此外必须手动将 pd.read_csv 命令中的所有 *substring* 值替换为资源的实际值。

需要为经常访问的数据创建数据资产。下面是在 Pandas 中访问 CSV 文件的更简单的方法

%pip install -U azureml-fsspecimport pandas as pd# get a handle of the data asset and print the URI data_asset ml_client.data.get(namecredit-card, versionv1) print(fData asset URI: {data_asset.path})# read into pandas - note that you will see 2 headers in your data frame - that is ok, for nowdf pd.read_csv(data_asset.path) df.head()阅读在交互式开发期间从 Azure 云存储访问数据详细了解笔记本中的数据访问。七、创建新版本的数据资产你可能已注意到数据需要稍微清理一下使其适合训练机器学习模型。它具有两个标头客户端 ID 列我们不会在机器学习中使用此功能响应变量名称中的空格此外与 CSV 格式相比Parquet 文件格式成为存储此数据的更好方法。 Parquet 可提供压缩并维护架构。因此若要清理数据并将其存储在 Parquet 中请使用

read in data again, this time using the 2nd row as the header

df pd.read_csv(data_asset.path, header1)

rename column

df.rename(columns{default payment next month: default}, inplaceTrue)

remove ID column

df.drop(ID, axis1, inplaceTrue)# write file to filesystem df.to_parquet(./data/cleaned-credit-card.parquet)此表显示了在前面的步骤中下载的原始 default_of_credit_card_clients.csv .CSV 文件中的数据结构。上传的数据包含 23 个解释变量和 1 个响应变量如下所示列名变量类型说明X1解释型给予的信贷金额新台币它包括个人消费信贷和他们的家庭附加信贷。X2解释型性别1 男性2 女性。X3解释型教育1 研究生2 本科3 高中4 其他。X4解释型婚姻状况1 已婚2 单身3 其他。X5解释型年龄年。X6-X11解释型过去付款的历史记录。我们跟踪了过去的每月付款记录从 2005 年 4 月到 9 月。 -1 按期付款1 付款延迟一个月2 付款延迟两个月 . 8 付款延迟 8 个月9 付款延迟 9 个月及以上。X12-17解释型2005 年 4 月到 9 月账单金额流水新台币。X18-23解释型2005 年 4 月到 9 月的先前付款金额新台币。Y响应默认付款是 1否 0 接下来创建数据资产的新_版本_数据会自动上传到云存储空间。对于此版本我们将添加一个时间值以便每次运行此代码时都会创建不同的版本号。 from azure.ai.ml.entities import Data from azure.ai.ml.constants import AssetTypes import time# Next, create a new version of the data asset (the data is automatically uploaded to cloud storage): v2 cleaned time.strftime(%Y.%m.%d.%H%M%S, time.gmtime()) my_path ./data/cleaned-credit-card.parquet# Define the data asset, and use tags to make it clear the asset can be used in trainingmy_data Data(namecredit-card,versionv2,descriptionDefault of credit card clients data.,tags{training_data: true, format: parquet},pathmy_path,typeAssetTypes.URI_FILE, )## create the data assetmy_data ml_client.data.create_or_update(my_data)print(fData asset created. Name: {my_data.name}, version: {my_data.version})清理的 parquet 文件是最新版本的数据源。此代码先显示 CSV 版本结果集然后显示 Parquet 版本 import pandas as pd# get a handle of the data asset and print the URI data_asset_v1 ml_client.data.get(namecredit-card, versionv1) data_asset_v2 ml_client.data.get(namecredit-card, versionv2)# print the v1 data print(fV1 Data asset URI: {data_asset_v1.path}) v1df pd.read_csv(data_assetv1.path) print(v1df.head(5))# print the v2 data print(____________________________________________________________________________________________________________\n ) print(fV2 Data asset URI: {data_asset_v2.path}) v2df pd.read_parquet(data_asset_v2.path) print(v2df.head(5))八、清理资源停止计算实例如果不打算现在使用它请停止计算实例在工作室的左侧导航区域中选择“计算”。在顶部选项卡中选择“计算实例”在列表中选择该计算实例。在顶部工具栏中选择“停止”。删除所有资源如果你不打算使用已创建的任何资源请删除它们以免产生任何费用在 Azure 门户中选择最左侧的“资源组” 。从列表中选择你创建的资源组。选择“删除资源组”。输入资源组名称。然后选择“删除”。关注TechLead分享AI全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验同济本复旦硕复旦机器人智能实验室成员阿里云认证的资深架构师项目管理专业人士上亿营收AI产品研发负责人。

阅读剩余 0%

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。