算力调优是未来算力网络的重要拼图,国内相关厂商的潜在机会巨大
时间:2023-07-12 09:08 来源:股窜网 作者:gucuan 阅读:次
算力调优是未来算力网络的重要拼图,国内相关厂商的潜在机会巨大
摘要:
1、在云计算中,资源调度是一个非确定性多项式优化问题
2、GPU超算集群中,暴露出的不只是算力调度问题
3、网络可视化技术在国内外均处于探索迭代过程中,国内相关厂商的潜在机会巨大
正文:
OpenAl此前在技术博客《Scaling Kubernetes to 2,500 nodes》中提到,OpenAl k8s 集群从500 nodes 扩展到2500 nodes 时遇到诸多存储、网络和资源初始化问题,通过可视化监控工具Datadog 发现 ETCD (一种Key-Value 存储服务)写数据存在几百毫秒延迟,listAPI被频繁调用、Fluentd 和DataDog 频繁侵占资源等问题。在当前数据量高速增长,算力需求持续高景气背景下,国盛证券认为算力调度市场未来空间广阔。
1、什么是算力调度?
在云计算中,资源调度是一个非确定性多项式优化问题,往往会出现“拆东墙补西墙这样的情况,因此云计算的算力调度必须考虑每个算力资源请求的需求边界,比如 OpenAl 团队使用“balloons”占位策略解决资源排队问题:
用一个低优先级 pod占着整个节点,要用节点的时候被自动驱逐掉,使用污点策略手动分配每个训练请求能使用的节点。
2、GPU超算集群中,暴露出的不只是算力调度问题
通信网络是制约数据中心算力高低的关键因素。在多线程并行计算下,通信成为制约算力的短板,只要有一条交换链路出现网络阻塞或丢包,就会产生 I/O 延迟,又如 GH200 新增显存互联功能,国盛证券认为,相对于无显存互联的超算,GH200对APIserver的并发访问量是指数级增长,将对硬件资源调度提出更高挑战。
OpenAl在针对网络监控进行优化时发现Prometheus 这类监控系统时常会导致 OOM (OutofMemory,内存溢出),从而不得不削减查询频率;每次初始化 pod,Prometheus 都要重写WAL (Write-ahead logging,预写式日志)拉长启动时间。
国盛证券认为,以上问题都可以通过嵌入式的多点硬件层监控系统避免上述问题。
在传统的计算式和I/0 式云计算中,外部串接监控服务器即可满足监控需求,而GPU 集群时代,需要并接部署“联邦集群”并进行不同监控服务器的功能划分,最后进行北向汇聚,有望提升监控采集效率、降低超算本身的资源侵占。
3、网络可视化技术在国内外均处于探索迭代过程中,国内相关厂商的潜在机会巨大。
在北美,目前主流的监控工具是 Netscout、Prometheus、Datadog等,都是基于在超算本地化部署;但在多点硬件部署的 AI超算中,软硬件结合的厂商成长性有望更为充分经过多年经验积累的相关国内DPI厂商,形成了高容量下的数据监控能力,有望成为全球算力调优的上游关键角色。
1)重视GPU超算集群中交换网络性能的重要性,而光通信是现有技术下几乎无法替代的交换网络方案,关注:
光通信: 中际旭创、新易盛、天孚通信、太辰光、腾景科技、德科立、联特科技、华工科技、源杰科技、剑桥科技;
算力设备:中兴通讯、紫光股份、锐捷网络、菲菱科思、恒为科技、工业富联、寒武纪、震有科技。
2)重视网络可视化及算力资源调优策略的软硬件厂商,该品种目前存在较大预期差,关注恒为科技、浩瀚深度、中新赛克。
脱水君点评:老AI板块最近已经反弹过几次了,主要还是以算力方向为主,毕竟算力方向是最有可能出业绩的环节,哪怕不能直接体现为净利润,但至少在经营数据上可能可以有迹可循。但现阶段不是特别好的买点,最好还是等中报出完后再考虑上车比较安全。
研报群每日更新:风口研报、机构调研、盘中宝、狙击龙虎榜、九点特供、财联社早知道、研选、机会前瞻、脱水研报 ……等内容,微信1691320917
摘要:
1、在云计算中,资源调度是一个非确定性多项式优化问题
2、GPU超算集群中,暴露出的不只是算力调度问题
3、网络可视化技术在国内外均处于探索迭代过程中,国内相关厂商的潜在机会巨大
正文:
OpenAl此前在技术博客《Scaling Kubernetes to 2,500 nodes》中提到,OpenAl k8s 集群从500 nodes 扩展到2500 nodes 时遇到诸多存储、网络和资源初始化问题,通过可视化监控工具Datadog 发现 ETCD (一种Key-Value 存储服务)写数据存在几百毫秒延迟,listAPI被频繁调用、Fluentd 和DataDog 频繁侵占资源等问题。在当前数据量高速增长,算力需求持续高景气背景下,国盛证券认为算力调度市场未来空间广阔。
1、什么是算力调度?
在云计算中,资源调度是一个非确定性多项式优化问题,往往会出现“拆东墙补西墙这样的情况,因此云计算的算力调度必须考虑每个算力资源请求的需求边界,比如 OpenAl 团队使用“balloons”占位策略解决资源排队问题:
用一个低优先级 pod占着整个节点,要用节点的时候被自动驱逐掉,使用污点策略手动分配每个训练请求能使用的节点。
2、GPU超算集群中,暴露出的不只是算力调度问题
通信网络是制约数据中心算力高低的关键因素。在多线程并行计算下,通信成为制约算力的短板,只要有一条交换链路出现网络阻塞或丢包,就会产生 I/O 延迟,又如 GH200 新增显存互联功能,国盛证券认为,相对于无显存互联的超算,GH200对APIserver的并发访问量是指数级增长,将对硬件资源调度提出更高挑战。
OpenAl在针对网络监控进行优化时发现Prometheus 这类监控系统时常会导致 OOM (OutofMemory,内存溢出),从而不得不削减查询频率;每次初始化 pod,Prometheus 都要重写WAL (Write-ahead logging,预写式日志)拉长启动时间。
国盛证券认为,以上问题都可以通过嵌入式的多点硬件层监控系统避免上述问题。
在传统的计算式和I/0 式云计算中,外部串接监控服务器即可满足监控需求,而GPU 集群时代,需要并接部署“联邦集群”并进行不同监控服务器的功能划分,最后进行北向汇聚,有望提升监控采集效率、降低超算本身的资源侵占。
3、网络可视化技术在国内外均处于探索迭代过程中,国内相关厂商的潜在机会巨大。
在北美,目前主流的监控工具是 Netscout、Prometheus、Datadog等,都是基于在超算本地化部署;但在多点硬件部署的 AI超算中,软硬件结合的厂商成长性有望更为充分经过多年经验积累的相关国内DPI厂商,形成了高容量下的数据监控能力,有望成为全球算力调优的上游关键角色。
1)重视GPU超算集群中交换网络性能的重要性,而光通信是现有技术下几乎无法替代的交换网络方案,关注:
光通信: 中际旭创、新易盛、天孚通信、太辰光、腾景科技、德科立、联特科技、华工科技、源杰科技、剑桥科技;
算力设备:中兴通讯、紫光股份、锐捷网络、菲菱科思、恒为科技、工业富联、寒武纪、震有科技。
2)重视网络可视化及算力资源调优策略的软硬件厂商,该品种目前存在较大预期差,关注恒为科技、浩瀚深度、中新赛克。
脱水君点评:老AI板块最近已经反弹过几次了,主要还是以算力方向为主,毕竟算力方向是最有可能出业绩的环节,哪怕不能直接体现为净利润,但至少在经营数据上可能可以有迹可循。但现阶段不是特别好的买点,最好还是等中报出完后再考虑上车比较安全。
研报群每日更新:风口研报、机构调研、盘中宝、狙击龙虎榜、九点特供、财联社早知道、研选、机会前瞻、脱水研报 ……等内容,微信1691320917

热门阅读

最新内容
推荐图文
相关内容
