随着人工智能、大数据、高性能计算等技术的快速发展,全球算力需求呈现爆发式增长。然而,面对异构甚至异地的AI、HPC等多种算力资源,许多企业在实际操作中遭遇了显著挑战:算力资源分散难以统一管理、资源利用率低下导致成本飙升、以及复杂的资源配置和调度成为业务扩展的瓶颈。
如何高效管理和调度这些异构算力资源,同时保持成本控制与业务增长之间的平衡,成为企业亟待解决的关键问题。
基于行业现状和难题,谐云推出异构算力管理解决方案,帮助企业打破传统算力管理的限制,提供异构甚至异地的AI、HPC等不同算力资源的管理与运营能力,并通过提供一站式的异构算力资源整合、调度、运营服务,提升资源使用的效率和灵活性,实现成本的有效控制和优化,为企业持续创新和发展注入强大动力。
更高效 更简单 更全面
异构算力管理解决方案提供了一套完整的工具集来实现对多种类型算力资源的统一管理和智能调度,并强调资源利用率的提升、成本控制的优化以及服务交付的敏捷性。
1、统一门户,快速感知各类数据
统一门户是异构算力管理解决方案的核心能力之一,旨在通过个性化的用户界面和模块化设计,为不同角色提供定制化的数据展示和操作体验。
客户可根据用户角色(如管理员、开发者、运维人员、业务决策者等),动态调整门户界面展示的内容和功能模块,快速查看全局资源使用情况、算力调度状态、任务运行状态、性能指标等数据。为用户提供高效、便捷、智能的管理体验。
2、支持异构算力集群统一接入
该核心能力旨在通过Kubernetes的扩展能力和多集群管理技术,实现对多种异构算力资源(如CPU、GPU、FPGA等)的统一接入和集中管理,从而简化资源调度、提升资源利用率,并降低运维复杂度。
支持将多个异构计算集群统一接入到管理平台,提供集中式的资源视图和操作入口,打破资源孤岛,实现全局资源的高效利用;根据任务需求和资源可用性,智能调度任务到最合适的计算集群,实现跨集群的负载均衡,最大化资源利用率,降低任务运行成本。
3、全面的集群监控管理
提供计算资源多维度、多角度的指标监控,快速全局掌握数据中心资源整体状况。支持基础设施、应用负载等类型的CPU、GPU、NPU等资源的全面运维监控,及时发现运行中的问题,提高集群可靠性。
GPU实时监控
4、异构芯片统一适配接入
支持快速适配国内外主流厂商的加速芯片,统一智能算力资源的分配与调度。提供标准化的接入接口和适配框架,快速完成芯片的集成与部署,降低芯片适配成本,缩短部署周期,提升系统的灵活性和兼容性。
5、快速部署,统一任务下发
根据用户对任务的资源配置与指定运行环境,通过API或k8s进行统一多集群调度,简化任务提交流程,降低用户使用门槛,提升开发效率。
6、GPU池化与共享,充分利用资源
支持 vGPU 资源,按需分配,实现 GPU 资源池化管理,最大限度的利用算力资源。相比原来以整卡为单位进行算力分配。现在以 0.1算力,1MB显存的 vGPU 供业务使用,透明无感。
在AI算力卡驱动层面针对业务编程接口进行适配改造,实现算力和显存的调度拦截,从而实现算力细粒度共享和隔离。这种方式不依赖于各个硬件厂商的能力,便于扩展。
7、自动化运营,计量计费管理
支持根据不同类型的基础设施资源设置计费规则,按CPU、内存、磁盘、GPU单独计费。提供按量付费、包年包月两种计费方式,按照租户维度计算账单,不同类型基础设施单独计费,并支持与第三方厂商对接,根据任务与用户统一汇总账单并进行结算。
落地实践
谐云异构算力管理解决方案在高校、政府、运营商等领域均有落地应用,为客户提供数据中心资源统一管理、AI一站式服务的能力,提升资源利用率与AI场景建设能力。
某国家级实验室数据中心超算资源管理
谐云为客户实现所有资源统一通过多云管理进行管理。多云管理平台是用户提交任务的统一入口,根据任务类型分发到对应资源池;资源池之间能实现动态的资源调配。
某高校计算中心算力管理平台
谐云为高校计算中心打造的异构资源管理平台,统一管理高校自有数据中心与来自各类运营商、云厂商等提供的资源,实现资源一站式管理与运营,提升用户体验。
某省级运营商融合算力云
谐云为集团构建的分布式算力云平台,实现整个集团内统一的资源管理与调度、应用部署、用户体验。自2022年12月开始,已部署金华,温州等6套生产集群,生产节点近200台,上线AI算力服务达50多个,集群均采用高可用部署。
政府联合谐云建设一体化算法平台
某政府针对算力资源、数据、行业算法模型等资源分散、无法高效利用等问题,联合谐云建设一体化算法平台,将数据资源、算力资源、算法组件统一纳管管理。谐云提供AI全链路服务,从数据标注-模型构建-模型训练-模型服务-服务应用的端到端服务,支持将数据、模型、算法等进行共享,提高资源复用能力。
异构算力管理平台架构图
通过引入先进的自动化技术和深度优化的算法模型,谐云帮助企业客户轻松应对复杂的计算任务,加速业务流程的同时降低运营成本,为企业在激烈的市场竞争中赢得先机提供了强有力的支持。
无论是对于寻求技术创新的企业,还是致力于数字化转型的传统行业,谐云的异构算力管理解决方案都将成为不可或缺的强大助力。