智能狡计需求飙升,液体冷却迎爆发前夕
发布日期:2024-10-31 13:43 点击次数:85(原标题:智能狡计需求飙升,液体冷却迎爆发前夕)
21世纪经济报谈记者骆轶琪 郑州报谈
从2022年末ChatGPT发布于今,AI大模子的模子参数及本领架构抓续演进,由此对智能算力的需求也在飙升,相干基础设施产业链都在靠近新的变化。
近日举行的“2024智算期间数据中心本领引颈与变革论坛”上,中国信通院云大所数据中心部总工程师郭亮在演讲中指出,算力中心发展资格了三个阶段:在2000-2010年间,数据中心由三大通讯运营商为主导;2010-2020年间,跟着数据中心需要更多专科本领能力加抓,运行有第三方数据中心作事商加入;到当今的智算中心期间,数据中心主体运行呈现百花皆放的发展态势,但同期也靠近寻找正确的发展旅途命题。
这不同于此前以CPU为主导的发延期间,在GPU为主导期间,包括底层芯片、基础设施、网罗架构、利用生态等方面发生了较大变化,产业链厂商亟需密切诱骗,探路新本线蹊径下的演进标的。
秦淮数据CTO张炳华对21世纪经济报谈记者暗示,面前国内第三方数据中心作事商主要有两种运营模式:超大范围定制模式和传统通用零卖模式。跟着AI大模子快速发展,对数据中心的需求走向更大范围AI集群,超大范围定制模式的上风突显。对此,秦淮数据升级发布“智算中心全栈处置决策2.0”,并诱骗生态伙伴,共同启动相干行业圭臬立项。
业内以为,跟随国内智能狡计生态的能力演进,并在此进程中推动产业走向圭臬化,将有望更好霸占AI波涛下的新发展机遇。
中国信息通讯研究院发布的《算力中心冷板式液冷发展研究报告(2024年)》(下称“报告”)败露,搁置2023年底,我国在用算力作事机架数已达到810万圭臬机架,算力总范围达230EFLOPS。大型以上算力中心计架数目占算力中心总机架范围比重逐年高潮,部分超大型算力中心的平均单机柜功率已达20kW。由此可见,高功率密度、高算力的大型、超大型算力中心将是改日成立的重心。
这也意味着面对GPU为中枢的智算中心基础设施生态需要快速应变。
郭亮指出,面前智算中心的生态发展以英伟达CUDA生态轻于鸿毛,在早期以CPU为中枢的X86期间,固然主导厂商数目也少,但芯片和利用、基础设施之间莫得过强的耦合关系;到了AI期间,从底层芯片到网罗、框架、利用、基础设施,彼此之间耦合度极高,由此导致一家厂商占据了80%~90%的极高份额。因此,行业企业何如找到我方的定位、围绕算力基础设施作念更多首创性责任成为瑕玷话题。
从基础设施、网罗、狡计、运营多个方面带来契机同期也有挑战:何如将网罗与狡计和会是面前被高度关心的话题;基础设檀越要包括电和冷,近期微软、甲骨文接踵告示要重启关闭多年的核电站,即是基于电力紧俏而作念出应酬,冷即散热格式从风冷转向液冷;运营主要指面前策略层面鼓吹的算力更动平台成立。
本领和生态靠近较多转向、需要产业链协同处置问题比较多,其中一个重心就包括散热格式。
张炳华分析,在通用狡计发展时期,CPU芯片功耗从2010年到2019近十年仅增长了一倍操纵,单机柜功率从几千瓦升迁到十千瓦;但在智能狡计发展时期,GPU卡的功耗抓续翻倍,GPU作事器单机柜功率密度从原本的近十千瓦操纵,升迁到当今的一百三十多千瓦,升迁了十几倍。这让功率密度、破钞电量等方面大幅提高,由此带来新的散热命题。
“在咱们看来,数据中心在相同条目下,何如保证芯片、作事器和网罗安全清闲运行,根蒂问题是处置供电、制冷、碰到故障后冗余等方面问题。”他续称,这就需要从基础设施系统架构、遐想决策,到家具化、预制化等标的鼓吹,由此进行圭臬化落地,也更容易完结范围效益。
前述会议上,秦淮数据推出“磐石”模块数据中心框架,包括高弹性建筑模子、“玄铁”极简供电架构、“玄冰”极致冷却架构和“玄智”智能运维系统,以支援高密及超高密智算场景。
其中,高弹性建筑模子的模块架构可天真设置、分期预制,同期兼容CPU和GPU不同算力场景;“玄铁”架构将传统配电全链路的10余个要领开采和会成变电站、柴发、中压、低压、电板、IT六大机电模块,可分阶段部署和弹性扩容;“玄冰”架构包括风冷、液冷、风液兼容等模块,以处置8kW-150kW区间统共功率密度的机柜冷却清贫。
张炳华对21世纪经济报谈记者暗示,接管通用决策来成立机房的基础设施,从建筑封顶到发扬进入运营期间会有3-6个月的准备期,用来装配供电、冷却等系统。面前接受液冷决策需要更长的成立周期、更长的作事器研发周期,为了尽快上线大模子,取得比竞对更高的算力,客户会优先接管省略更快部署的风冷决策。是以在风冷向液冷决策更正的初期,鉴于风冷散热决策熟悉且通用,以及企业对接受新本线蹊径可能带来的风险存在担忧,大部分客户缺少积极主动接管液冷决策的能源。
“面前颇受关心的冷板液冷决策也靠近如水质、冷却液表露、微通谈拥挤以致腐蚀等问题,一朝遐想决策远离理、成立质料莫得保证、运维治理失当等,对业务运行来说会靠近更高的故障风险。但风冷散热能力已达极限,无法适应改日高密度机柜的冷却需求,因此,当下阶段液冷小范围的尝试和考据一定要作念,这是改日通向大范围使用场景的必经阶段。”他续称。
需求驱动下,面前液冷本领如故在快速浸透。调研机构IDC统计败露,中国液冷作事器市集在2024上半年延续保抓快速增长,市集范围达12.6亿好意思元,同比增长98.3%,其中液冷处置决策仍以冷板式为主,占95%以上。把柄调研机构IDC的统计和预测,2023-2028年,中国液冷作事器市集年复合增长率将达到47.6%,2028年市集范围将达到102亿好意思元。
张炳华对21世纪经济报谈记者分析,从传统风冷向液冷更正进程中,靠近的内容上并不是单一贸易逻辑清贫,更多源于面前液冷散热生态不够熟悉。
举例作事器在液体中运行时,遇到一些液体会产生化学响应,这在往日行业并莫得积存鼓胀的应酬告诫,需要较万古辰来对主要液体材料的兼容性和清闲性进行考据。但商量到GPU老本偏高,且并不对浸没式液冷决策开心质保,令厂商尝试浸没式液冷时有更多顾虑。
这与新本领在发展早期靠近的圭臬化、兼容性不及连系。但产业界如故在驱动处置这一近况。
前述《报告》分析,面前我国针对液冷本领的研究仍处于起步阶段,液冷作事器的遐想、运维、安防等方面的行业圭臬较为空白,业内尚未酿成斡旋的本领圭臬,增高了产业发展壁垒。收货于策略支援与教学,液冷产业圭臬步伐化迎来了快速发展。相配是冷板式液冷本领圭臬制定渐渐朝向常态化、步伐化迈进。
面前市集上的液冷决策主要包括三类:冷板式液冷、浸没式液冷、喷淋式液冷。张炳华以为,在多个液冷散热决策中,冷板液冷相对更熟悉、对现存作事器生态的改变更少,因此业界面前更侧重于鼓吹冷板液冷决策完善。
“要是要接受浸没式液冷决策,对作事器网罗、电源等生态都要有较大改变。在液冷决策发展初期会不太具备范围效益。但冷板液冷决策不错同期适配GPU、CPU等主狡计单位的能力和生态。比拟之下,从风冷决策改为冷板液冷决策的难度更小。”他进一步指出。
IDC中国作事器市集研究司理辛一以为,从民众范围看,液冷决策面前在外洋的利用尚不庸碌,只在一些头部CSP(云作事商)的集群节点中有所利用。英伟达最新的Blackwell平台展望在本年末或2025年头在民众范围无数出货,新平台本身功耗较高,当然对液冷决策的利用起到促进作用。
“要是中国在此时机下,无论是作事器家具遐想、制造、销售和爱戴方面,如故液冷数据中心基础设施成立等畛域积存丰富告诫,必将在统共这个词液冷市蚁合理会瑕玷作用。同期,还需要产业相干组织、机构、企业及互助伙伴,在液冷决策施行利用进程中精诚互助,共同制定合乎液冷发展的行业或组织圭臬,加速促进产学研的高效和会。”他续称。
前述论坛上,“冷板液冷系统全人命周期质料轨则步伐系列行业圭臬”启动立项,各人组同期成立。该系列圭臬将由中国信通院和秦淮数据牵头,诱骗数十家行业头部企业共同编制。
张炳华告诉记者,面前国际上关于液冷散热本领固然莫得酿成无缺斡旋的圭臬,但并不虞味着对液冷决策莫得本领要求。在这些要求逐步完善后,才会酿成圭臬定式。
此前对数据中心制定圭臬主要由互联网厂商牵头,但在智能狡计发展需求下,作事器硬盘布局进行了再行遐想,改变了既有生态模式。因此,当今需要产业链厂商共同参与完善圭臬制定,把柄各平缓产业链中的位置协同开发,对市集发展也更具有教学作用。
“咱们在制定圭臬提醒步伐时,既鉴戒行业的基本原则,也参考了ODCC(绽放数据中心委员会)的本领要求等方面商量。”他续称,秦淮数据但愿通过参与ODCC、拉通更多产业链生态等格式,让更多元的行业用户共同参与完善早期圭臬界说进程。
集邦接头以为,跟着民众政府及监管机构关于ESG(环境、社会和公司治理)认知逐步升迁下,将加速带动散热决策由气冷转液冷体式发展,预期液冷决策浸透率逐年攀升,这将促使电源供应厂商、散热业者及系统整合厂等竞相进入AI液冷市集,酿成新的产业竞争与互助态势。