• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

傲飞算力平台

【发布时间:2023-08-10】

随着科学技术的发展,高性能计算(HPC)和人工智能(AI)早已广泛用于各行各业,如气象预报、石油勘探、生命科学、航空航天等等,但是对于专业的数据科学家来说,集群环境搭建,并行运算,分布式存储,作业调度等基础设施和服务仍然是其面对的一大难题。

傲飞算力平台(AMPHA)是新华三集团基于Kubernetes和Slurm自主开发的AI和HPC资源一体化管理的集群管理平台。它可以在不改变AI和HPC用户习惯的前提下,充分挖掘计算性能,实现AI和HPC资源的灵活调配管理。实现了AI和HPC两大业务模块的统一调度、统一用户/用户组管理、统一文件/文件夹管理、统一计费、统一监控告警,实现了AI和HPC业务的真正融合。

傲飞算力平台提出软硬件一体化的全方位高性能交互开发模式。平台为用户提供HPC作业的调度、AI模型训练、模型转换、模型评估、模型预测、模型导出、在线推理服务等功能,同时为了辅助用户管理开发资源,也提供了文件存储、资源监控、资源申请、工单管理以及可视化等功能。为解决部署难的问题,平台提供基础软硬件集群环境的一键自动部署的功能;通过AMPHA,用户可以实现对资源的统一监管、对作业的调度与监控、训练数据可视化、工程化的模型开发管理,满足用户的不同业务场景的开发需求。

傲飞整个系统从下到上五层:基础设施、平台层、中间件层、产品层和用户层

基础设施主要是硬件设备,包括管理登录节点、计算节点、IO节点和网络。管理登录节点用于管理整个系统,AMPHA和产品底座运行在该节点上,管理登录节点根据集群规模大小和客户业务需求可灵活扩缩容。计算节点分为两大分区:AI分区和HPC分区,客户可根据实际业务决定是否给对应的分区分配资源以及分配多少资源,值得一提的是,系统管理员可以对两大分区的资源灵活调配以适应不同阶段对AI和HPC资源的不同需求;网络设施。AMPHA支持AMPHA支持InfiniBand和RoCE组网,多用于计算和存储。管理网一般用10G的以太网,带外监控网络一般用1G或10G的以太网。

平台层包括:操作系统、文件系统和产品底座。操作系统为Ubuntu20.04以及之后的版本;文件系统支持多种:GPFS、NFS和OneStor等,同时支持这些文件系统的Kubernetes CSI插件,充分保障数据读写IO性能;平台层的底座为H3C基于Kubernetes自主开发的PaaS云平台,相比开源的Kubernetes该平台提供集群、应用、监控、灾备等全方位管理界面,支持一站式集群部署,节点健康检测、修复、升级,统一的应用打包规范和检查,支持各产品融合部署,支持多种存储和网络功能,支持丰富中间件。

中间件层包括:API网关、IAM、数据库、缓存、消息队列、License Client等开源或者H3C自研的一些组件,这些组件为AMPHA的正常运行提供支撑。

产品层是产品功能的核心,包括公共部分功能、AI分区功能和HPC分区功能。其中节点/分区管理、用户/用户组管理、文件管理、配额管理、计费管理、报表统计、集群监控、故障告警等属于公共部分功能,作业管理、开发环境、模型管理、镜像管理、DL算法库、ML算法库、机器学习、深度学习、迁移学习、强化学习、AI市场、数据标注、工作流、AI训练、AI推理等属于AI分区功能,批处理作业、应用模板、License管理、应用市场、运行环境、模块管理、控制台、Singularity镜像等属于HPC分区功能。

用户层进行用户分权分域管理,支持ladp和本地认证多种非方式。用户分为两部分:管理员角色和普通用户角色,普通用户可以进行分组,不同的用户组具有不同的资源使用权限,用户之间和用户组之间租户隔离,充分保证用户的信息安全。

产品软件架构示意图

新华三官网
联系我们