对HPC与AI性能极限的突破正给可持续发展带来新的挑战_紧固件

对HPC与AI性能极限的突破正给可持续发展带来新的挑战
时间: 2024-08-08 09:57:47 | 作者: 紧固件

　　随着摩尔定律逐步放缓，打造更强大的HPC及AI集群的唯一方式，似乎就只剩下构建更大、更耗电的基础设施。

　　犹他大学教授Daniel Reed在最近于丹佛召开的SC23超级计算大会上解释称，“现在如果想要更强的性能，就必须购买更多硬件，即构建起更庞大的系统，自然也会带来更大的电力消耗和更高的冷却需求。”

　　如今，Top 500超算榜单中的各位超级计算集群选手功耗普遍超过20兆瓦，相当一部分数据中心园区（特别是针对AI训练和推理需求而构建的数据中心园区）甚至更加夸张。有预测表明到2027年，顶尖超级计算机的运行功耗很可能将来到120兆瓦左右。

　　在关于高性能计算（HPC）与碳中和及可持续性小组会议上，来自芝加哥大学、施耐德电气、洛斯阿拉莫斯国家实验室、HPE以及芬兰IT科学中心的专家们对这些趋势做了权衡，并就应如何规划、部署、报告和运营这些设施给出了自己的见解。

　　此番讨论的核心主题之一就是电力使用效率（PUE）。作为参考，行业标准是以计算、存储或网络设备所使用的实际电量，与总利用率进行比较来衡量数据中心的运行效率。PUE越接近1.0，则代表该处设施的能效越高。

　　来自HPE的Nicolas Dubé解释道，虽然PUE是优化数据中心运营功耗的有效工具，但也会导致超大规模企业及其他大型数据中心运营商养成很多坏习惯。

　　“不少超大规模企业——这里我就不具体点名了——在亚利桑那州、新墨西哥州及其他非常干旱的国家和地区建立起数据中心。在这一些地方兴建的数据中心在配合蒸发系统之后能轻松实现相当惊人的PUE成绩。然而，这其实就是在用当地极为宝贵的水资源来换取那一丁点电耗优势。我认为这纯属犯罪行为，甚至应该把这帮家伙送进监狱。”

　　有些朋友可能不太熟悉，这里所说的蒸发冷却（也被称为沼泽冷却器）属于能效最高的冷却技术之一。这些系统在干燥环境下的工作效果特别好，但也需要消耗巨量的水资源。

　　来自洛斯阿拉莫斯国家实验室的Genna Waldvogel也指出，对于已经采用蒸发冷却设计的设施，例如能源部下辖的该处实验室设施，也有办法能缓解相应的环境影响。

　　“我们的数据中心几乎100%依靠可再生水运转。我们拥有一套非常先进的系统……能够从废水处理厂中提取污水，对其做处理之后再泵送至超级计算机以实现冷却。”

　　Reed教授也表示，蒸发冷却需要消耗大量的水，因此设施运营商一定要选择系统的安装位置。

　　Dubé还强调了地理选址的重要意义。在他看来，通过将数据中心部署在绿色能源供应充足的位置，能够在某些特定的程度上减轻生成式AI对于环境的负面影响。

　　Dubé举例指出，加拿大数据中心运营商QScale正在魁北克省开发一处运行功率100兆瓦的数据中心，该设施消耗的电力几乎100%来自水力和风能等可再次生产的能源。尽管推理等工作负载对于延迟非常敏感，需要与用户群体保持较近的距离且不太可能轻易搬迁，但大规模训练负载却恰恰相反。他强调，“只要理解了这一点，就会意识到大规模训练工作负载实际上应该被重新定位或者迁移到资源可持续性最好的区域之内。”

　　Dubé还提到，除了在可再次生产的能源附近部署数据中心之外，还应当考虑怎么利用这些设施产生的热量，避免像过去那样直接将其排放到大气当中。

　　QScale公司就在尝试将计算设施部署在邻近农业温室的位置，利用前者产生的肩垫在加拿大漫长的冬季为温室供暖。

　　为了进一步做出解释，Dubé还提出了一个很有趣的问题：计算对GPT-3进行一轮训练所产生的热量，能够种出多少个西红柿。按照他的估计，这一个数字将相当可观。

　　假设一处占地500平米的温室每年供暖需要消耗1000吉焦（1吉焦等于10亿焦耳），而训练GPT-3耗电为1287兆瓦，则可换算为4.6个温室。Dubé按每年每平方米能够产出75公斤西红柿计算，并认为有85%的废热可用于温室生产，那么最终产量将为14.7677万公斤、即略高于100万个西红柿。

　　对热量的再利用在HPC和AI领域已经不是什么新鲜概念。欧洲最大的超级计算机LUMI系统就是典型案例，CSC科学IT中心的Esa Heiskanen就表示，“我们地处高纬度严寒之地，气温长期保持低位，几乎全年能够正常的使用干式冷却器运行。”而除自然冷却之外，该设施还配备废热捕捉系统，能够很好的满足卡亚尼市20%区域的供暖需求。

　　除了从技术方案和设施选址的角度考虑问题外，芝加哥大学CERES计算中心负责人Andrew Chien还打算采取更富动态的运营方式，借此探索数据中心的可持续性空间。

　　其思路并不复杂：运营商不再永远以恒定的容量来运行HPC集群或者数据中心，而会根据给定时间内电网上的可用电力或能源组合，灵活调整系统的容量利用率。

　　例如，在一天中的特定时段，风能或太阳能的输出功率可能会更高，这就允许设施以更高的负载保持运行，同时又不致增加相应的碳排放。

　　Chien预计，如果将这些技术应用于日本RIKEN实验室的“Fugaku Next”超算项目（预计将在2030年至2040年之间上线），则可将电力成本降低达90%，同时将碳排放（按当前运行方式计算）缩减40%。

　　他解释道，“任何一个人都觉得电力是问题的核心，但我认为碳排放才是真正的重点。”在他看来，未来电网中涌动的大部分电力都将属于可再生能源。

　　可以想见，要想真正控制住规模日增的HPC与AI集群所产生的碳排放，对报告质量与一致性的改善也将是重要一环。施耐德电气CTO办公室的创新产品负责人Robert Bunger就此做出了具体阐述。

　　“在我看来，HPC社区应该努力保持领头羊。过去的成绩已经证明该社区发掘技术潜力的聪明才智，但未来他们要把可持续发展的报告和量化机制也纳入考核体系。”

　　Bunger解释称，目前的问题之一，在于数据中心运营商往往很难在如何上报可持续指标方面达成一致。超大规模运营商普遍不愿具体讨论电力或水资源消耗等问题，这无疑会让可持续发展成为一句空话。

　　为了解决这一个问题，施耐德电气提出了数据中心运营商应当跟踪的28项指标，这中间还包括总耗电量、能源利用率（PUE）、可再次生产的能源总消耗量、总耗水量、水资源利用率等常见内容。此外，清单还建议跟踪其他一些关键指标，例如可再次生产的能源指标、能源再利用率、服务利用率，甚至包括产生的噪声和土地利用率等。

　　Bunger承认对于大部分计算基础设施来说，对这28类数据来进行全面追踪确实是项艰巨的任务。但他还是建议各数据中心运营商可以先从最核心的6大指标入手，逐步扩大监控范围、增强优化能力，从当下开始为全人类的未来做好打算。

上一篇:【48812】一文看懂空气悬架体系的结构与作业原理

下一篇:收藏个税6项专项附加扣除纳税人常见疑问50答