思腾云计算

2023-12-21 12:02:11

在这 AI 的时代，数据几何式增长，高性能计算硬件呼之欲出，要服务各种场景下的计算需求，就得在高性能计算硬件和 AI 应用之间架起一座桥梁，CANN 异步计算架构就是这座桥梁。一端是 AI 应用和框架，另一端是 Ascend 系列芯片，CANN 从 2018 年初露锋芒到 2022 年发布的 CANN 6.0 最新版本，在使能 AI 开发效率和性能方面持续保持业界领先，CANN 5.0 比 CANN3.0 性能翻倍，CANN 6.0 版本在性能、开放性及易用性上持续提升，在开源算法支持、自定义算子开发、动态 shape 场景支持等方面全方位满足 AI 开发者的诉求，不断提升生态满足度; 在新版本中，有 400+ 算子支持动态 shape，支持 80% 的主流算子，极大提高了 AI 场景生态满足度，以匹配客户更多的 AI 业务场景，在算子开发方面推出原生支持 C/C++ 的算子开发语言，降低算子开发门槛，同时提供昇腾硬件亲和的数据结构，在保持性能的基础上提升用户自定义算子开发效率，使得算子开发效率得到倍级提升。CANN 6.0 版本将会提供包括 11 大类在内的 70 个 DSL 算子编程接口、新增 11 类算子调度策略，从而使更多算子采用简单的 DSL 方式开发，算子库中 DSL 算子覆盖度可达 80%。CANN 同时支持算子 Debug 调试、一键生成工程代码、自动编译部署到算子库、简化算子交付件等功能，基于全流程解决开发者痛点，最大程度降低算子开发门槛。持续提升模型开发效率，实现模型下载即用 CANN 支持模型的自动化迁移、调测及智能调优，从真正意义上实现模型下载即用。在 CANN 6.0 版本下，主流框架 TensorFlow 和 PyTorch 的模型迁移成功率可达 80% 以上，兼容主流三方库 Horovod/Keras/DeepSpeed 等。在此基础上还能方便地将那些随算法演进而开发的自定义 kernal 或 function 保留到框架侧执行，提升算法适配灵活度。在模型调优方面，开发者不仅能借助一系列昇腾亲和 API 提升性能，还能通过智能化调优工具代替复杂的手工优化操作，CANN 6.0 版本的平均调优效率较上一代提升一倍以上。

所以一个优秀的国产运算卡，具有较高的硬件运算性能只是成功了一半，强大的软件支撑才是竞争力的核心，那具备这么优秀的软硬件性能，这张卡主要应用在哪些领域呢？

首先 CANN 超强的图像并发处理能力和丰富多样的图像处理接口，为城市智慧交通提供了有力的技术支持，让出行管理更高效，通行更通畅，其次随着 CANN 对动态 shape 的支持度不断提升还可以应用于 ORC 识别，语音识别，身份证识别，人脸识别，车辆/车牌识别等的智慧金融，智慧园区，智慧生产等领域；除了以上领域，媒体视频领域也正逐步借力 CANN 图像并发处理能力，为用户带来全新的视觉体验，给人们的生活增色添彩。视频类业务发展至今，已不仅仅是单纯视频内容的播放呈现，以自由视角为代表的，极具张力的视觉体验吸引了越来越多的受众。所谓自由视角，就是通过现场环绕部署的多台摄像机，让观众多角度、多细节、立体化地欣赏到精彩的表演效果或比赛瞬间。借助 CANN 超强图像并发处理技术，将现场从不同角度采集的多路视频进行并发解码处理，经过AI智能合成后，编码成视频流实时传送给观众，带来沉浸式的视觉体验，再者我们在看视频或直播的时候，往往会根据当前网络状况选择不同的清晰度，这对应在服务端其实就是视频转码的过程，将原始视频解码过后，根据用户选择的不同清晰度进行编码。在整个过程中，视频编解码性能的好坏考验着用户的耐心，CANN 提供的超强图像并发处理技术，在视频解码的同时可轻松完成多路视频编码，大大降低转码时间，实时满足用户观看需求。

接着介绍 Atlas 300V Pro，V 就是 video 的缩写，是一张视频解析卡，它与 300I pro 显著的区别就是显存容量大，为48GB，大的显存可以在一定范围内提高系统的运行速度，能够处理的分辨率也越高，所以显存容量大了，其分辨率也越好，能够处理视频的路数也越多，Atlas 300V Pro 就是专门为大容量、多路数视频解析场景而生的，这种场景在安防领域十分常见。

Atlas 300T pro 是基于昇腾 910 AI 处理器开发的训练卡，其最大功耗为 300W，PCIE4.0*16 接口，全高全长双宽，需外接电源，内置 30 个 AI core，其算力与国际顶尖 AI 芯片持平；单卡可提供超领先的 FP16 280 TFLOPS 算力，能够加快深度学习训练进程，搭载 1 个 100GE QSFP-DD 网络接口，通常在训练时常用的神经网络训练大都使用随机梯度下降算法，显存中除了加载模型参数，还需要保存中间状态，主要是梯度信息，相比推理，显存需求要增加几倍，显存要够大才能跑起来；要训练好的模型，需要使用大量数据读入显存，显存带宽也要够大，所以总结起来就是训练卡要求显存大，高带宽，而此卡显存容量为：16GB DDR4 + 32GB HBM 支持 ECC，大家都知道 HBM 有比 DDR4 或 GDDR5 更低的功耗，更高带宽。此外训练时需要 support 更多功能异构计算架构 CANN 的软硬件协同优化充分释放硬件算力，为高效训练奠定了坚实的基础。

全新一代 CANN，更是能通过图级和算子级的编译优化、自动调优等软硬件深度协同优化，全面释放硬件澎湃算力，达到 AI 模型训练性能的大幅提升。针对包括分类、检测、NLP、语义分割在内的常用模型训练场景，均可实现性能翻番，让整个训练过程快到“飞”起

文章来源:https://blog.csdn.net/STGPU/article/details/135124450
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！