一、安全
由于其性质及其管理的资产,该项目本身就存在重大的安全风险。鉴于 GPU 集群的潜力,尤其是在加密货币和高性能计算领域,黑客攻击是可能的。
为了加强,我们采取了以下措施:
- 模块化基础设施:我们使用不同的模块化模块来构建基础设施,每个模块都有一个单一的责任点。示例:用于矿工、客户、公共 Web 访问、内部请求、分析仪表板、监控等的单独 API。
- 强大的防火墙和身份验证层:我们使用单独的防火墙层,具有强大的监控和广泛的警报。特别注意授权层。尽可能拆分和限制所有基础架构用户的访问权限。
- 广泛的日志层:记录每个操作/事务/请求。任何可疑活动都将触发手动验证警报。
二、高负荷
鉴于项目管理大量高负载基础设施组件,确保基础设施本身不会成为整个系统的瓶颈非常重要。为了实现这一目标,我们优先考虑以下策略:
- 模块化设计:通过将系统逻辑分解为更小、更易于管理的部分,我们可以促进更快、更高效的按需扩展。
- 操作队列:这可防止任何单个组件过载,并确保整个系统的平稳数据流,尤其是在峰值负载期间。
- 全面的监控和警报:我们维护所有系统活动的详细日志。持续监控系统运行状况、性能指标和资源利用率,以确保最佳运行。实施实时警报,将任何潜在问题或违规行为通知相关团队,从而迅速采取行动并采取缓解措施。
三、计费
我们的目标是成为全球排名第一的经济型 GPU 提供商,我们建立了一个基础设施,既能保证成本效益,又能防范意外成本。
基础结构在构建时考虑了以下策略:
- 自动成本监控/警报:集成的实时成本监控工具,用于跟踪 GPU 使用情况和相关成本。这将有助于防止过度使用并确保运营保持在预算范围内。
- 广泛的通知功能:实施了一个全面的通知系统,可以根据消息的紧急程度和性质(短信、即时消息、电子邮件)通过各种渠道提醒用户和管理员。
预测:我们采用预测分析工具,根据历史数据和趋势预测未来的 GPU 使用情况和成本。将这些数据提供给我们的客户和供应商。这使我们最重要的资产,即客户,能够更好地进行预算、资源分配和规划。