01-智算中心的建设成本

转载:公众号:IT技术分享-老张

前言

智算中心的建设成本大家都比较清楚了,以H100千卡集群为例,整体预算要3个多亿,其中H100整机的八卡整机占比最高,目前市场价一台约240w,仅128台H100就要3个亿,还有配套的IB或者Roce网络也需要2-3千万,以及存储系统(并行文件存储)、安全配套设备以及运维运营平台等费用也需要1千万左右,如果涉及液冷方案还需增加1千万左右,所以H100千卡的预算通常会在3.5-4亿区间,除了建设成本,运营成本也非常重要,到底有哪些方面组成呢?

一、运营成本组成1-设备的折旧

我们知道这类重资产的H100整机是有使用寿命年限的,以算力租赁维度,通常规划5年的回本周期,也就是5年内产生的收益要大于等于设备本身的价值才不至于亏损,举例来说,一台240w,折算到5年的60个月里,折旧的成本每台每月就是4万,当然也有客户会计算5年后的设备残值,按照采购价10-20%作为收益的组成(这个要看未来几年新品迭代的速度,以及对训练算力机的需求)。

二、运营成本组成2-机房日常运营投入

这个属于常规运营成本,设备要运行就必须有配套的机房环境,比如IDC的机柜的租金、水电相关的能源功耗成本、散热成本、液冷改造成本等等;

目前H100整机一台就10.2Kw,传统的IDC机房单机柜供电往往都是4-8kw,往往需要对传统数据中心机房的供电系统进行改造,液冷也是如此,如果需要液冷方案还要配套液冷的系统。

三、运营成本组成3-人员的成本

人员成本在IDC服务业(奥飞数据统计)约占业务成本的3%,占IDC服务收入的比例约2%;但是智算中心我认为要略高于此,因为新设备、新方案、新业务对相应人员的要求也更高了,这部分预计占业务成本的3-4%。

四、运营成本组成4-其他隐形成本

1、H100这类特殊机型的维修不及时带来的损失也较大,不同的采购渠道获得的售后时效也不同,维修期间的租赁收益是零,带来的损失也算运营成本的一部分。

2、市场宣传推广、目前智算中心市场的租赁业务竞争激励,需要投入市场营销费用,这个也算是运营过程中的成本。


01-智算中心的建设成本
http://gsproj.github.io/2024/10/17/01_运维/06-智算中心/01-智算中心的建设成本/
作者
GongSheng
发布于
2024年10月17日
许可协议