近年来,GPU 计算已成为许多高性能应用的支柱,包括人工智能和视频渲染领域。
传统上,此类空间由集中式模型主导:大规模 GPU 集群托管在单个数据中心或云设施中。主要基于区块链构建的去中心化 GPU 计算或去中心化物理基础设施网络 (DePIN) 是此类模型的替代方案。
本文讨论了集中式和分散式 GPU 计算模型,权衡了它们在性能、安全性方面的优缺点,并权衡了成本,以回答为什么对于某些工作负载,分散式 GPU 服务更好。
集中式 GPU 计算
集中式模型是组织在单个环境(通常在数据中心)中管理和分配它们的地方。主要的云提供商 – oAmazon Web Services、Google Cloud 和 Microsoft Azure- 提供了强大的 GPU 功能,可供租用并在其基础设施中托管。
此模型提供高度托管的环境、严格的资源分配,有时由于接近和完美的配置而获得更好的性能。
优点
- 集中式数据中心可确保最佳配置、低延迟以及可预测的结果。
- 集中式提供商负责及时进行硬件更新和维修。
- 有许多云提供商提供集成工具和托管服务,使用户能够轻松利用集中式 GPU 工作负载
缺点
- 由于每小时费用高,成本非常高的集中式 GPU 计算,尤其是对于长时间运行的应用程序
- 单点故障:集中式系统容易受到系统中存在的故障的影响。
- 在高峰需求时间,GPU 容量无法扩展,用户无法享受相同的 GPU 容量。
去中心化 GPU 计算
去中心化 GPU 计算是指在地理和逻辑上不同的位置找到的不同独立节点上使用世界各地未使用的 GPU 容量。
去中心化的 GPU 计算资源已由多个基于区块链网络的编排管理。基于 DePIN 的平台分布在 GPU 计算机上,要求用户提供未使用或未充分利用的 GPU 容量。
优点
- 由于资源是由单个节点的操作员贡献的,因此可以以较低的成本提供适量的 GPU 能力。
- 分布式实现往往会消除单点故障,这通常可以提高可用性和冗余性。
- 去中心化模型可以通过额外的节点快速扩展,从而支持无限的可扩展性。
缺点
- 节点质量差异,配置可能会导致性能变化。
- 全球分布式资源可能对延迟敏感,因此会给一些实时敏感的任务带来瓶颈。
- 去中心化模型需要对分布式资源进行适当的编排,以便它们达到其目的。
安全性比较
去中心化 GPU 模型利用区块链网络,允许用户拥有高度安全的环境和专用的安全措施,包括符合全球标准的加密数据通道和访问控制系统。这些区块链环境有助于确保用户在使用 GPU 计算实例处理敏感数据时达到平等水平。
集中式 GPU 网络会带来各种安全风险。由于数据将从单个数据中心进行处理,因此它不会通过各种节点传输,这些节点很容易降低数据隐私和完整性。高级加密和安全协议的使用可以帮助降低此类风险,但处理更敏感数据的组织更喜欢去中心化的 GPU 模型来实现数据相等。
成本分析
GPU 的去中心化网络在定价方面要灵活得多。这是因为有大量独立运营商提供 GPU 容量,因此成本往往较低且具有竞争力,而不是单一的集中式模型,该模型对于长时间运行的进程或资源密集型任务来说太昂贵了,因为用户需要支付额外费用才能使用按需托管资源。
去中心化模型可以成为小型企业或资金紧张的研究人员的有效替代品,只需一小部分价格即可获得 GPU 资源。当然,成本节约必须与权衡取舍相权衡。
性能比较
对于不太依赖于轻微延迟或硬件变化的任务,去中心化 GPU 模型可以提供足够的功率计算,通常比集中式模型更便宜。
这只能通过去中心化的 GPU 平台实现,这些平台在较小的数据集中以更快的速度进行并行处理,以及大型 AI 模型的训练。
由于不同地理位置的节点分离和硬件规格的变化,如果需要从单个位置提供稳定且可预测的电源,则分散式模型的性能可能与集中式模型不同。
硬件规格的这种变化可能会使某些任务在集中式模型中产生不同的结果,因为优化的配置是在数据中心维护的。
对比表
以下是集中式和分散式 GPU 计算的比较表:
特点 集中式 GPU 计算 分散式 GPU 计算 | ||
定义 | 由集中式环境中的单个组织管理,通常位于主要云提供商(例如 AWS、Google Cloud、Azure)托管的数据中心。 | 在全球单独的节点之间使用未使用的 GPU 容量,利用区块链网络在地理位置分散的位置编排 GPU 资源。 |
可靠性 | 容易出现单点故障;如果中央服务器或数据中心遇到问题,整个系统可能会受到影响。 | 一个节点中的故障不会影响整个系统,使其对局部故障更具弹性。 |
安全 | 具有强大协议和访问控制的集中式安全性,但缺乏去中心化网络的透明度。 | 通过加密、透明和访问控制的区块链技术增强安全性, |
成本 | 高成本,尤其是对于长时间运行或资源密集型任务,小型企业可能无法承受。 | 由于独立运营商的竞争市场,定价更低、更灵活。– |
性能比较 | 针对来自单个位置的可预测电源进行了优化。 | 适用于数据集和某些 AI 训练模型等并行处理任务。 |