做个商城网站怎么做便宜可以做家教的网站有哪些
- 作者: 五速梦信息网
- 时间: 2026年04月18日 10:02
当前位置: 首页 > news >正文
做个商城网站怎么做便宜,可以做家教的网站有哪些,北京网站建设降龙网络,网页设计与制作实训报告心得体会2000字NVIDIA Triton系列01-应用概论 推理识别是人工智能最重要的落地应用#xff0c;其他与深度学习相关的数据收集、标注、模型训练等工作#xff0c;都是为了得到更好的最终推理性能与效果。 几乎每一种深度学习框架都能执行个别的推理工作#xff0c;包括 Tensorflow、Pytorc…NVIDIA Triton系列01-应用概论 推理识别是人工智能最重要的落地应用其他与深度学习相关的数据收集、标注、模型训练等工作都是为了得到更好的最终推理性能与效果。 几乎每一种深度学习框架都能执行个别的推理工作包括 Tensorflow、Pytorch、MXNet 等通用型框架与 YOLO 专属的 Darknet 框架此外还有 ONNX 开发推理平台、NVIDIA TensorRT 加速推理引擎也提供推理相关的 C / C 与 Python 开发接口这是大部分技术人员所熟悉的方法。 在垂直应用方面NVIDIA 的 DeepStream 智能分析工具是非常适合用在种类固定且需要长期统计分析的场景包括各种交通场景的人 / 车流量分析、工业流水线质量检测等应用并且在早期视觉Visualization类推理功能之上再添加对话Conversation类推理功能让使用范围更加完整。 上述的推理方式通常适合在识别固定种类与固定输入源的使用场景在交通、工业自动化领域、无人设备等领域的使用比较普及。 但是这种方式并不适合在网络相关的服务类应用中使用包括在线的产品推荐、图像分类、聊天机器人等应用因为在线服务需要同时面对未知数量与类型的数据源并且透过 HTTP 协议进行数据传输的延迟问题也是严重影响用户体验感的因素这是绝大部分网路服务供应商要导入 AI 智能识别技术所面临的共同难题。 NVIDIA Triton 推理服务器的最大价值便是为服务类智能应用提供一个完整的解决方案因此首先需要解决以下的三大关键问题
- 高通用性 (1) 广泛支持多种计算处理器包括具备 NVIDIA GPU 的 x86 与 ARM CPU 设备也支持纯 CPU 设备的推理计算。 (2) 广泛支持各种训练框架的文件格式包括 TensorFlow 1.x/2.x、PyTorch、ONNX、TensorRT、RAPIDS FIL用于 XGBoost、Scikit-learn Random Forest、LightGBM、OpenVINO、Python 等。 (3) 广泛支持各种模型种类包括卷积神经网络 (CNN)、循环神经网络 (RNN)、决策树、随机森林和图神经网络等算法。 2.部署便利 (1) 可在横向扩展的云或数据中心、企业边缘甚至 NVIDIA Jetson 等嵌入式设备上运行。 (2) 支持用于 AI 推理的裸机和虚拟化环境包括 VMware vSphere 与基于 Docker 技术的 Kubernetes 管理机制。 (3) 可托管于多种人工智能云平台包括 Amazon SageMaker、Azure ML、Google Vertex AI、阿里巴巴 AI、腾讯 TI-EMS 等平台。 3.性能优化 (1)动态批量处理推理优化的一个因素是批量大小或者您一次处理多少个样本GPU 以更高的批量提供高吞吐量。然而对于实时应用程序服务的真正限制不是批量大小甚至吞吐量而是为最终客户提供出色体验所需的延迟。 (2)模型并发执行GPU 是能够同时执行多个工作负载的计算设备NVIDIA Triton 推理服务器通过在 GPU 上同时运行多个模型来最大限度地提高性能并减少端到端延迟这些模型可以是相同的也可以是来自不同框架的不同模型。GPU 内存大小是同时运行模型数量的唯一限制这会影响GPU利用率和吞吐量。 以上是 NVIDIA Triton 推理服务器的基本特性说明要满足上面所列的特性是相对复杂的内容这是本系列文章所要为读者逐一探索的内容不过在讲解技术内容之前我们可以先看看有哪些比较具有代表性成功案例能让大家对于 Triton 推理服务器的使用场景有更进一步的了解。 案例1微软 Teams 会议系统使用 Triton 提升生成实时字幕和转录性能 微软 Teams 是全球沟通和协作的重要工具每月有近 2.5 亿活跃用户其 Azure 认知服务提供 28 种语言的字幕和转录实时字幕功能帮助与会者实时跟踪对话转录功能方便与会者在日后回顾当时的创意或回看未能参与的会议实时字幕对聋哑人、听力障碍者或者异国与会者特别有用。 底层语音识别技术作为认知服务中的一个 API开发人员可以使用它定制和运行自己的应用程序例如客服电话转录、智能家居控制或为急救人员提供 AI 助手。认知服务会生成 Teams 的转录和字幕将语音转换为文本并识别说话人。同时也能够识别专业术语 、姓名和其他会议背景提高字幕的准确性。 微软 Teams 首席项目经理 Shalendra Chhabra 表示“这样的 AI 模型非常复杂需要数千万个神经网络参数才能识别几十种不同的语言。但模型越大就越难以经济高效地实时运行。” 为了提高服务质量微软使用 NVIDIA Triton 开源推理服务软件来帮助 Teams 使用认知服务优化语音识别模型以及认知服务所支持的高度先进语言模型在极低的延迟状态下提供高度准确、个性化的语音转文本结果同时可以保证运行这些语音转文本模型的 NVIDIA GPU 充分发挥计算资源在消耗更少计算资源的同时为客户提供更高的吞吐量进而降低成本。 NVIDIA GPU 和 Triton 软件能够帮助微软在不牺牲低延迟的情况下通过强大的神经网络实现高准确性确保语音-文本的实时转换当启用转录功能时与会者可以在会议结束后轻松补上错过的内容。 Triton 推理服务器有助于简化 AI 模型部署并解锁高性能推理用户甚至可以为自己的应用开发自定义后端。下面三种关键功能是协助微软将 Teams 的字幕和转录功能扩展到更多会议和用户的效能 流推理新型流推理功能—通过跟踪语音上下语境提高延迟、敏感性字幕的准确度协助 Azure 认知服务合作定制语音转文本的应用程序。 动态批量处理批量大小指神经网络同时处理的输入样本数量通过 Triton 的动态批量处理功能单项推理请求被自动组合成一个批次因此能够在不影响模型延迟的情况下更好地利用 GPU 资源。 并发模型执行实时字幕和转录需要同时运行多个深度学习模型Triton 使开发人员能够在单个 GPU 上同时完成这些工作包括使用不同深度学习框架的模型。 案例2Triton 助力微信加速视觉应用提高可靠性 本案例中通过 NVIDIA 的 GPU 执行 Triton 推理服务器与 TensorRT 推理加速引擎 帮助微信的二维码光学识别OCR计算降低 46% 时间并将系统的失败率降低 81%同时减少 78% 的服务器使用数量。 腾讯微信是一款跨平台的通讯工具支持通过手机网络发送语音、图片、视频和文字等。截至 2021 年 6 月微信在全球拥有超过 12 亿活跃用户是国内活跃用户最多的社交软件。 微信识物是一款主打物品识别的 AI 产品通过相机拍摄物品更高效、更智能地获取信息。2020 年微信识物拓展了更多识别场景上线了微信版的图片搜索打开微信扫一扫左滑切换到 “识物” 功能对准想要了解的物品正面可以获取对应的物品信息包括物品百科、相关资讯、相关商品。 2021 年 1 月微信发布的 8.0 版本更新支持图片文字提取的功能用户在聊天界面和朋友圈中长按图片就可以提取图片中文字然后一键转发、复制或收藏。 在识物的过程包含检测、图像召回、信息提炼等环节其中二维码扫描的使用频率也是非常高主要包括识别和检测这两种应用都有非常大的计算量。但原本使用 Pytorch 进行模型的推理时遇到以下三大问题 请求的延迟很大影响用户体验感 显存占用很大单张 NVIDIA T4 GPU 卡能部署的模型数比较少导致推理请求的并发数上不去请求失败的概率太高只能通过增加机器的方式来提高并发能力业务部署成本较高。 使用的模型经常变化而业务需要更换后的模型需要能够快速地加速和上线部署。 为了解决上述问题微信团队使用 Triton 推理服务器结合 TensorRT 加速推理器的综合方案主要技术内容如下 通过使用 TensorRT 对微信识物和 OCR 的模型进行加速在都使用 FP32 的情况下比 Pytorch 的延迟降低 50% 左右 在 OCR 的识别和检测阶段使用 TensorRT 结合 NVIDIA T4 GPU 的 FP16 Tensor Core在保证精度的前提下识别的延迟降低 50%、检测的延迟降低 20% 在微信识物的分类和检测任务中通过使用 NVIDIA T4 GPU 的 int8 Tensor Core 并结合 QAT在满足精度要求的前提下进一步大幅提升了性能 通过使用 FP16 和 int8 低精度模式在大幅降低推理延迟的同时大大减少了显存的占用在 FP16 模式下单模型显存占用仅占 FP32 模式的 40%–50% 而在 int8 模式下单模型显存占用仅占 FP32 模式的 30% 左右。在提高单张 T4 卡上部署的模型数量的同时大幅提高了单 GPU 的推理请求并发能力 Triton 的动态批量处理dynamic batch和多实例等特性帮助微信将在满足延迟要求的同时提高了系统整体的并发能力将系统失败降低了 81% TensorRT 对个别模型得到推理的加速Triton 则对加速后的模型进行快速的部署满足了业务对修改后的模型进行快速部署的需求也大大减少工程人员的工作量。 通过使用 NVIDIA 的 TensorRT 对微信识物和 OCR 的模型进行加速在降低单次推理延迟 50% 以上的同时节约了多达 64% 的显存。结合 Triton 的动态批量处理和多实例的功能OCR 的整体时延降低了 46%系统失败率降低了 81%。大大提高了用户的体验并且服务器的数量减少了多达 78%极大降低了服务的成本。 案例3腾讯 PCG 使用 Triton 加速在线推理提高设备效能 腾讯平台与内容事业群简称 腾讯 PCG负责公司互联网平台和内容文化生态融合发展整合 QQ 软件、QQ 空间等社交平台和应用宝、浏览器等流量平台以及新闻资讯、视频、体育、直播、动漫、影业等内容业务推动 IP 跨平台、多形态发展为更多用户创造海量的优质数字内容体验。 腾讯 PCG 机器学习平台部旨在构建和持续优化符合 PCG 技术中台战略的机器学习平台和系统提升 PCG 机器学习技术应用效率和价值建设业务领先的模型训练系统和算法框架提供涵盖数据标注、模型训练、评测、上线的全流程平台服务实现高效率迭代在内容理解和处理领域输出业界领先的元能力和智能策略库。 这个机器学习平台服务于 PCG 所有业务产品面对上述所提到的综合需求有以下三大挑战
- 业务繁多场景复杂**** (1) 业务开发语言包括 C 与 Python (2)模型格式繁多包括 ONNX、Pytorch、TensorFlow、TensorRT 等 (3)模型预处理涉及图片下载等网络 io (4)多模型融合流程比教复杂涉及循环调用 (5)支持异构推理 2.模型推理结果异常时难以便利地调试定位问题 3.需要与公司内现有协议 / 框架 / 平台进行融合。 基于以上挑战腾讯 PCG 选择了采用 NVIDIA 的 Triton 推理服务器以解决新场景下模型推理引擎面临的挑战在提升用户研效的同时也大幅降低了服务成本。 NVIDIA 的 Triton 推理服务器是一款开源软件对于所有推理模式都可以简化在任一框架中以及任何 GPU 或 CPU 上的运行方式从而在生产环境中使用推理计算并且支持多模型 ensemble以及 TensorFlow、PyTorch、ONNX 等多种深度学习模型框架可以很好的支持多模型联合推理的场景构建起视频、图片、语音、文本整个推理服务过程大大降低多个模型服务的开发和维护成本。 通过将 Triton 编译为动态链接库可以方便地链入公司内部框架对接公司的平台治理体系符合 C 语言规范的 API 也极大降低了用户的接入成本借助 Python 后端和自定义后端用户可以自由选择使用 C 或 Python 语言进行二次开发。 NVIDIA DALI 是 GPU 加速的数据增强和图像加载库使用 Triton 的 DALI 后端可以替换掉原来的图片解码、缩放等操作Triton 的 FIL 后端可以替代 Python XGBoost 模型推理进一步提升服务端推理性能。 借助 NVIDIA Triton 推理框架配合 DALI / FIL / Python 等后端与 TensorRT整体推理服务的吞吐能力最大提升 6 倍延迟最大降低 40%。帮助腾讯 PCG 各业务场景中以更低的成本构建了高性能的推理服务同时更低的延迟降低了整条系统链路的响应时间优化了用户体验也降低了 20%-66% 总成本。 透过以上三个成功案例就能很明显看出Triton 推理服务器在面对复杂的智能识别应用场景时能发挥非常有效的整合功能特别是模型来自不同训练平台时以及面对不同前端开发语言时更能体现其便利性。 在后面的文章会带着大家先从宏观的角度来了解 Triton 推理服务器的应用架构以及所需要的配套资源接着搭建 Triton 的使用环境包括建立模型仓、安装服务端/用户端软件然后执行一些实用性强的基础范例以及结合 NVIDIA 的 TensorRT 与 DeepStream 等推理工具让更多开发人员能利用 Triton 整合更多 AI 推理资源。 出处NVIDIA Triton系列文章1应用概论 - 最新资讯 - 英伟达AI计算专区 - 智东西 (zhidx.com)
- 上一篇: 做个人网站要注意什么网站推广意义
- 下一篇: 做个什么样的网站比较好龙岗龙城街道做网站
相关文章
-
做个人网站要注意什么网站推广意义
做个人网站要注意什么网站推广意义
- 技术栈
- 2026年04月18日
-
做个人网站的步骤四川移动端网站建设
做个人网站的步骤四川移动端网站建设
- 技术栈
- 2026年04月18日
-
做个企业网网站怎么做西直门网站建设
做个企业网网站怎么做西直门网站建设
- 技术栈
- 2026年04月18日
-
做个什么样的网站比较好龙岗龙城街道做网站
做个什么样的网站比较好龙岗龙城街道做网站
- 技术栈
- 2026年04月18日
-
做个手机网站多少钱小商品网站建设
做个手机网站多少钱小商品网站建设
- 技术栈
- 2026年04月18日
-
做个外贸网站上海 企业网站制
做个外贸网站上海 企业网站制
- 技术栈
- 2026年04月18日
