3.训练服务器的演示及简介

=============

Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+昇腾910处理器的AI训练服务器,实现完全自主可控,广泛应用于深度学习模型开发和AI训练服务场景。该服务器面向公有云、互联网、运营商、政府、交通、金融、高校、电力等领域,具有高计算密度、高能效比、高网络带宽、易扩展、易管理等优点,支持单机和整机柜销售,支持风冷和液冷应用,满足企业机房部署和大规模数据中心集群部署。

计算产品3D展示 (huawei.com)

大家可以使用上面的地址进行3D模型预览及展示,可以看这个服务器的构造及拆解组件,体验感十足。

f5a2ddedadc5a6d318027e0221bbefae.png

这个性能分析在昇腾全栈AI软硬件平台主要体现在标记的异构计算架构部分,释放硬件的算力。

d671483dfbf8565d3a549156047b9c02.png

4.训练执行的过程是什么样的?

===============

232951c7ad0a038176cab3deedb20bbe.png

OBS资源图里有很多细分的图表,其实不需要全部记住,因为每个指标的变化都不是独立的,是与其他指标关联的

1、每秒点击数

每秒点击数(Hits per Second)统计的是运行场景过程中,虚拟用户每秒向Web服务器提交的HTTP请求数。该指标经常与其他指标结合进行分析

2、吞吐量

吞吐量(Throughput)统计场景运行过程中服务器的每秒吞吐量,单位是字节,表示虚拟用户在任何给定的每一秒内,从服务器获得的数据量。通过该指标可以看出服务器在流量方面的处理能力以及是否存在瓶颈,正常情况下,吞吐量与TPS图的变化基本一致。若压力增大时,吞吐量的曲线增加到一定程度后变化缓慢,甚至平坦,则很可能是网络出现带宽瓶颈。不论是吞吐量,还是TPS都非常不稳定,尤其是TPS,通过率比较低

3、HTTP状态码概要

HTTP状态码概要(HTTP Status Code Summary)统计场景运行过程中,从Web服务器返回的HTTP状态代码数,返回的都是200状态码,说明在HTTP返回层面上是成功的

4、每秒HTTP响应数

每秒HTTP响应数(HTTP Responses per Second)统计运行场景过程中,每秒从Web服务器返回的不同HTTP状态码的数量。一般和每秒点击量相同,如果服务器的响应数小于点击量,那么说明服务器无法应答,超过负载的链接请求

5、连接数

连接数(Connections)统计场景运行过程中,每个时间点打开的TCP/IP连接数。例如,当连接数dadao 稳定状态而事务响应时间迅速增大时,添加连接可以使用性能得到极大提高

6、每秒连接数

每秒连接数(Connections Per Second)统计新建的连接数和关闭的连接数,方便了解每秒对服务器产生连接的数量。同时连接数越多,说明服务器的连接池越大,当连接数随着负载上升而停止时,说明系统的连接池已满,通常这个时候服务器会返回504错误

7、每秒重试次数

每秒重试次数图显示在场景运行的每一秒内,服务器尝试的连接次数。在下列情况下将重试服务器连接

初始连接未经授权

要求代理服务器身份验证

服务器关闭了初始连接

初始连接无法连接到服务器

服务器最初无法解析负载生成器的IP地址

8、每秒SSL连接数

每秒SSL连接数图显示在场景运行的每一秒内,重新使用的SSL连接数。当对安全服务器打开TCP/IP连接后,浏览器打开SSL连接。因为新建SSL连接需要消耗大量的资源,所以应该尽量减少打开新的SSL连接。建立新SSL连接后,应该重复使用该连接。每个虚拟用户的新SSL连接数不应该超过一个。理想情况下,每秒都应该只有很少量的新TCP/IP和SSL连接.

5.将整网训练阶段进行分段,分析性能影响

====================

e8e7e03ed7db0334822d8122d415adb1.png

1).数据读取阶段:主要影响在HOST侧


b2296ae1d96299a68ba8e866b24b3f85.png

2).数据预处理阶段:HOST和DEVICE都可能涉及


bfc8279b14d05fcc83f6ed370c1005fc.png

3).训练后处理阶段:HOST和DEVICE都可能涉及


相关文档Log/Summary_昇腾CANN社区版(5.0.3 alpha 001)(训练)_TensorFlow模型迁移和训练_手工迁移和训练_更多特性_华为云 (huaweicloud.com)

a26d046484cc36b565b1cff015cc22bf.png

4).训练执行阶段:主要影响在DEVICE侧


66981449690f1c939ade691bd1ba8240.png

f88ea0e0f480fed8484456dfcbbeeb3a.png

6.打开Profiling前,确认当前源码状态(确认当前源码处在手工迁移后的状态)

=========================================

原始的代码:

sess=tf.Session()

自动迁移后的代码:

sess = tf.Session(config=npu_config_proto())

手工迁移后的代码:

config = tf.ConfigProto()

custom_op = config.graph_options.rewrite_options.custom_optimizers.add()

custom_op.name = “NpuOptimizer”

config.graph_options.rewrite_options.remapping = RewriterConfig.OFF

config.graph_options.rewrite_options.memory_optimization = RewriterConfig.OFF

sess = tf.Session(config=config)

小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数初中级前端工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Web前端开发全套学习资料》送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

img
img
img
img

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注:前端)
img

最后

前15.PNG

前16.PNG

由于文档内容过多,为了避免影响到大家的阅读体验,在此只以截图展示部分内容

开源分享:【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】

-1711184220987)]

最后

[外链图片转存中…(img-WWcfEkcQ-1711184220988)]

[外链图片转存中…(img-VkEMnIXn-1711184220988)]

由于文档内容过多,为了避免影响到大家的阅读体验,在此只以截图展示部分内容

开源分享:【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐