• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C算力网络技术专刊(精华版)-6W101

手册下载

H3C算力网络技术专刊(精华版)-6W101-整本手册.pdf  (11.11 MB)

  • 发布时间:2024/12/17 20:00:11
  • 浏览量:
  • 下载量:

算力网络概述

算力需求无处不在

算力(Computing Capability)是指计算机或计算系统进行运算处理的能力,主要用来衡量计算机执行计算任务的速度和效率。可以把算力比作人的智力,一个人的智力越高,解决问题的能力就越强。同样地,计算机的算力越高,它计算的速度就越快、效率就越高。

在数字经济时代,算力已成为渗透日常生活、推动行业发展和应对社会挑战的关键力量。在生活层面,算力通过智能家居设备如语音助手提升生活便利性,通过在线教育平台的个性化推荐优化学习体验。在行业层面,算力通过加速医疗数据的分析来改善疾病诊断,通过增强金融系统的风险控制与决策能力来提升金融系统的效率和安全性。在社会层面,算力助力智慧城市管理,提高城市治安和环境保护的效率。

算力已经成为现代社会的一种新型基础设施,其重要性堪比水、电、气,是数字时代不可或缺的生产力之一。正是这种全方位的渗透与应用,使得算力在塑造更智能、更高效的未来方面发挥着至关重要的作用。

图1 算力在现代社会的普及与应用

 

算力发展推动社会进步

在现代经济中,算力需求不断增长,算力已成为推动技术进步和经济增长的关键因素之一。

·     推动技术创新:算力是现代技术发展的基石,尤其是在人工智能、机器学习、大数据分析、自动驾驶等领域。在这些领域,技术的进步依赖于强大的算力来处理和分析海量数据,从而推动新技术的创新,并快速将创新成果转化为商业应用,加速科技成果的市场化和产业化。

·     提升经济效率:算力可以提高企业和整个经济体的生产效率。通过优化数据处理流程、提升自动化水平和精准预测市场趋势,算力有助于降低成本、提高生产效率,进而刺激经济增长。

·     催生新产业和新业态:算力的发展助推了新产业和新业态的出现,如云计算、物联网、区块链等,这些新兴领域为经济增长提供了新的动力和空间。

·     改善决策质量:算力强化了数据驱动的决策过程。无论是企业管理还是宏观经济政策制定,算力都能提供更加精准的数据支持和分析工具,帮助制定者作出更加合理的决策。

·     增进社会福祉:算力的应用在医疗、教育、城市管理等领域极大地提高了公共服务的质量,增进了社会福祉,间接促进了经济的稳定和增长。

·     提高全球竞争力:国家或地区的算力发展水平直接影响其在全球经济中的竞争力。算力较强的国家能够在科技创新、产业升级等方面占据优势,从而在国际贸易和投资中更具吸引力。

图2 算力发展推动社会进步

 

算力网络的基本构成

如下图所示,算力网络是一个高度集成和多功能的系统,它不仅涵盖了强大的计算能力(算)和广泛的网络连接(网),还引入了智能化管理平台——算网大脑(脑)。这种独特的“算、网、脑”三层架构,共同构成了一个高效、智能、灵活的服务体系。这个体系不仅能够充分满足数字化时代对计算资源的复杂和日益增长的需求,还能够推动技术的革新,为未来的发展奠定坚实的基础。

图3 算力网络的基本结构示意图

 

算力网络的基本构成包括三个层面:

·     算力层面:负责生产算力,涵盖从个人电脑到超级计算机等各种设备,通过一个动态、按需分配的服务平台实现计算任务的灵活调度。

·     网络层面:确保计算资源的高效分配,利用IPv6+等创新技术构建全连接智能IP网络,连接云、边缘和终端,从而实现设备间的高效协同。

·     算网大脑层面:智能化管理和调度的核心,通过人工智能和大数据分析等先进技术,实现资源优化和任务自动化调度,确保高效利用算力资源和网络传输,并提升网络的自适应能力和运维效率,为用户提供稳定、高效、个性化的计算服务。


 

方案介绍

1.1 总体架构

为了实现算力和网络资源协同调度,H3C推出了基于IPv6+的算力网络解决方案。该方案基于H3C自研的分布式算网大脑、网络控制器、云管平台及网络设备,实现对网络资源和算力资源的统一分析、控制、调度,构建算力、转发与控制分离的未来算力网络。该解决方案主要聚焦于算力网络发展的第二阶段(融合统一)为主,同时融入了第三阶段(一体内生)的发展需求,展现了高度的前瞻性和适应性。

图4 基于IPv6+算力网络解决方案的总体框架

 

如上图所示,H3C推出的基于IPv6+算力网络解决方案包括两个层面:

·     算力基础设施层:基于云平台,构建以云为中心的算力服务,通过智能网络联接泛在算力,实现算力、网络、安全和存储的一体化管控。

·     算力网络调度系统层:该层面主要用来实现算网调度、算网运营和算力应用。

¡     算网调度:通过五大引擎(意图引擎、编排引擎、感知引擎、调度引擎、智能引擎)联接基础设施和业务应用,实现算和网的协同调度。

¡     算网运营:负责整个算力服务平台的运营、运维、交易以及对外能力的提供。

¡     算力应用:利用强大的计算能力和强健的网络设施,为各种复杂和数据密集型的应用提供算力服务。

1.2 算力基础设施层

算力基础设施层依托云平台,实现了通用算力、智能计算以及不同厂商异构算力的集中管理。通过云平台,算力网络调度系统能够感知各类算力的布局和形态,并在此基础上进行高效的算力编排和调度。此外,该层结合了无损数据中心网络和基于IPv6+的广域网技术,连接广泛分布的算力资源,从而实现算力资源与网络资源的高效统一调度。这一架构不仅优化了资源配置,还提高了整体运营效率。

图5 算力基础设施层体系架构图

 

图6 算力基础设施层网络架构图

 

1.3 算力网络调度系统层

算力网络调度系统层需要实现三大功能:算网调度、算网运营、算力应用。

算网调度作为算力网络解决方案的核心组成部分,负责构建和管理算力网络。算网调度通过网络控制器实时监控和获取网络资源状态,并根据网络状态对网络进行设置;通过云平台监控和调度算力资源,确保资源的合理配置和使用。同时,算网调度感知算网运营需求和用户的应用需求,根据需求为其提供算网一体化服务。

图7 算网调度示意图

 

算网调度通过五大引擎联接基础设施和业务应用,实现算和网的协同调度:

·     意图引擎:该引擎负责将复杂、多样化且大粒度的算网需求进行细化。通过业务逻辑和资源需求分析,结合内置模板,完成业务的抽象和建模,为后续的编排引擎提供标准化、统一的需求输入。

·     编排引擎:基于意图引擎解构的需求,进行算力和网络资源的统一编排。它向客户提供多种可选的编排方案,以可视化方式展示,使客户可以根据偏好选择最合适的方案。

·     调度引擎:依据编排结果,进行网络和算力资源的调度。网络资源调度通过网络控制器实现,而算力资源则通过各算力中心的云平台完成资源绑定与预留等。

·     智能引擎:负责构建算网资源状态的数据模型,并根据编排引擎的要求进行智能分析和决策,将分析结果反馈给算网编排引擎。通过融入人工智能和大数据技术,智能引擎增强了算网的智能编排和业务感知调优能力。

·     感知引擎:实时监测和感知计算和网络资源的状态,通过收集和分析这些数据,为调度引擎提供准确的资源情况,以便进行智能决策和优化。

算网运营负责整体管理和维护算力服务平台,确保其高效、稳定的运行。具体职责包括:

·     门户入口:提供定制化的用户管理界面,满足管理员、运维人员、监管人员及普通用户的不同需求,确保各方能够高效地访问和管理所需资源。

·     运营管理:负责算力服务平台的日常运营,包括但不限于计费、订单处理、账单管理等,确保业务流程的顺畅和透明。

·     服务管理:管理算网业务的全生命周期,从业务启动、模板管理、服务注册与更新,到编排过程的每一个环节,确保服务的连续性和更新的及时性。

·     组织管理:为算力服务平台提供基础管理服务,包括用户管理、工单处理、审批流程、日志记录及报表生成等,增强管理的规范性和效率。

·     运维管理:全面监控应用、设备、数据库等关键组件,实施包括可视化监控、故障管理和告警系统在内的综合运维策略,确保系统的稳定运行和快速响应能力。

算力应用利用算网调度系统分配的算力资源和网络资源为用户提供计算服务,如数据分析、机器学习模型训练、科学计算、视频处理等。算网调度系统能够根据用户的算力需求,合理分配算力和网络资源。

在算力网络调度系统层中,H3C自研的分布式算网大脑作为核心系统,负责关键的决策和调度功能。算网大脑旨在根据算网业务需求和基础设施现状,设计业务方案并优化资源调度。鉴于算力服务需求的多样性和定制化特点,算网大脑需利用算力和网络的基本能力进行灵活的组合与编排,通过模板形式为租户提供必需的资源、服务、策略和配置。

在实现层面,算网大脑的任务是将复杂、多变的算力需求按照业务逻辑、资源与性能需求、服务连续性、业务流的粘性以及资源节点的统一性等要素,分解为更小粒度、简化的需求。这样,业务便能够在多个算力节点上分散部署,既避免了单点资源的局限性,又确保了业务的灵活布局和资源的有效利用。此外,选定的算力解决方案还能够满足用户对网络的特定需求,如低时延、稳定的抖动和足够的带宽等,从而提供全面优化的服务体验。

如下图所示,算网大脑作为整个算网调度平台,除了需要具备感知和决策外,还需要引入智能分析,用于评估决策是否合理,评估结果可以反过来影响决策。因此,算网大脑整个构建思路是基于一个闭环模型。

图8 算网大脑闭环循环决策模型图

 

具体的闭环过程如下:

·     算网感知:算网感知模块实现对于算网基础设施信息和周边相关的环境信息的感知,实现对于外部因素和状态等各类信息的收集、汇总、整理能力。包括纳管算力信息和网络信息。

·     智能分析:算网数据智能分析模块,实现对于算网感知信息的数据分析,将感知到的信息数据转化为有用的数据,为后续决策提供依据,通过引入大数据和人工智能技术更可以提升数据价值转化效率和能力。

·     算网编排:实现基于算网业务需求,制定算网业务模型,并基于算网业务模型实现算网业务的生命周期管理能力,下达生命周期过程中对于底层算网基础设施的需求指令。

·     调度执行:算网调度模块接收算网编排模块下发的指令,并对接算网基础设施层完成指令执行,完成实际资源分配及网络配置。

方案实现机制

2.1 功能概述

H3C基于IPv6+的算力网络解决方案包含多个具备不同功能的关键部分。如下图所示,该系统可划分为四大核心区域:

·     入算网络:作为网络门户,负责向计算节点提供接入服务,引导外部数据至内部处理单元。

·     算间网络:负责连接不同数据中心,确保数据在数据中心间高效传输,是实现高速计算协作的关键通道。算间网络一般指广域网。

·     算内网络:位于数据中心内部,处理数据中心内的通信和数据交换,保障计算任务的顺利执行。算内网络一般数据中心内部网络。

·     算网调度:负责对整个算力网络的资源进行调度、编排和管理。

其中,入算网络确保数据顺利接入,算间网络通过高速链路实现数据中心间的无缝数据流动,算内网络协调数据中心内部的通信,而算网调度则负责整个算力网络的统一管理和调度。通过不同区域的协同工作显著提升了数据传输速度和计算资源调度的效率。

图9 算力网络解决方案实现机制示意图

 

为确保四大核心区域的高效协同运作,H3C算力网络解决方案的设计基于网络处理用户业务流量的逻辑框架。其主要设计思路和实施步骤如下:

(1)     面向服务资源的算力路由:算力路由为算力网络提供了全面的感知、通告和寻路能力。这一步骤确保了智算网络的流量转发基础设施能够高效、灵活地运作,为整个网络的算力分配和优化奠定了基础。它主要对应于算网调度部分,通过感知和优化路由实现全局管理。

(2)     海量应用的精准识别:利用APN6标识和iBRAS智能感知技术对网络入口流量进行精准识别,这一过程关键在于对流量的类型和需求进行准确识别,确保每个数据包都能够被正确理解和分类。这种精确的流量识别为网络的高效处理和转发提供了必要的信息,是高效处理和转发网络报文的基础。这些技术应用于入算网络,确保外部数据接入过程中的准确性和效率。

(3)     超大流量的负载均衡:在识别完成后,系统通过SRv6 TE PolicyRoCEv2APN6等技术优化路径选择,实现高效的流量管理和负载均衡。此步骤关乎算间网络和算内网络,确保数据流量选择最合适的传输路径。

(4)     自适应SLA的路径调度:路径确定后,系统通过OAM应用级质量探测技术(如TWAMP-lightiFIT等技术)和灵活的路径调度方案进一步优化数据传输过程。这一步骤在算网调度中起到了关键作用,确保网络能够根据实时条件动态调整路径,从而提高服务的质量和可靠性。

(5)     高性能的无损传输:为了确保在所选路径上的数据传输质量,系统采用了无损传输技术(如PFCECN、长距分段流控等技术),特别是为数据中心和广域网设计的解决方案。此技术为算间网络和算内网络提供支持,保证了数据的完整性和准确性。

(6)     高质量的业务保障:系统通过采用基于IP网络切片的资源隔离、确定性网络技术(包括RCQF技术和多发选收技术)等多种措施,进一步保证了网络服务的整体质量。这些保障技术同样涉及算间网络和算内网络,提供稳定可靠的服务。

(7)     易部署的业务安全:为了确保整个网络环境的安全,系统利用SRv6 SFC等技术来防止数据泄露和网络攻击,确保数据传输的安全性。安全技术在入算网络、算间网络和算内网络中均起到至关重要的作用,全面保障数据安全。

这些技术共同构成了网络处理用户业务流量的全面策略,旨在提供无缝、高效、安全的网络服务。

图10 关键技术全景图

 

2.2 入算网络:智能识别、敏捷可靠

多维感知(iBRAS/APN6智能识别)

·     技术应用:iBRAS/APN6技术通过深度分析网络流量和用户行为,实现对服务请求的智能识别与分类。借助于业务感知硬件APAApplication Aware,业务感知)插卡,iBRAS设备能够精准标记用户流量中的不同应用类型,进而提供针对性的定制化网络服务。

·     技术实现:该技术采用数据包检查(DPI)和高级算法,对网络流量进行实时监控与分析,以识别各种服务类型。基于业务需求,它可以动态调整网络资源分配,优化服务质量。

·     技术价值:智能识别技术显著提升了算力网络的响应速度和适应能力,确保网络能快速反应于多样化的服务需求,从而增强网络的敏捷性与可靠性。

灵活切片(10Mbps租户级网络切片,无损扩缩)

·     技术应用:利用网络切片技术,每个租户都能获得专属的网络空间,实现了网络资源的有效隔离和优化配置。这种方式确保每个租户的网络服务既独立又定制化。

·     技术实现:通过网络虚拟化技术,物理网络资源被划分成多个网络切片。每个租户都分配有特定的切片资源,根据实际业务需求,这些资源可以灵活地进行调整和扩缩。

·     技术价值:使得算力网络可以灵活地扩展或缩减资源,提供更加个性化和无损的服务体验。

2.3 算间网络:灵活调度、安全可靠

灵活调度

·     技术应用:通过多维感知技术(如iFITTWAMP Light)收集网络状态信息,从而动态地调度计算和网络资源,为关键应用分配优先资源,同时为非关键任务优化资源使用。通过将不同流量引入到不同的SRv6 TE Policy隧道传输,实现流量差异化承载。

·     技术实现:使用先进的调度算法和网络控制策略,实时调整网络资源分配和流量管理。

·     技术价值:提高了网络的灵活性和效率,确保了高优先级的业务得到足够的资源支持,同时也使得网络能够更好地适应业务流量的变化。

灵活切片

·     技术应用:允许用户根据实际需求订购特定时间段内的带宽资源,实现按需付费。

·     技术实现:结合网络虚拟化和软件定义网络(SDN)技术,动态调整网络带宽。

·     技术价值:为用户提供了更加灵活和经济的带宽使用方案,尤其适合短期内需要大量带宽的场景。

安全可靠

·     技术应用:为广域网中的业务流传输提供带宽确定性、路径确定性和时间确定性,并提供安全保障。

·     技术实现:利用确定性网络技术,通过精确的路径规划、流量管理和优先级调度,确保数据传输的时效性和可靠性;利用SRv6 SFC技术,基于高度可编程的SRv6协议,实现服务功能链的动态配置和优化。

·     技术价值:提供可预测的网络性能,端到端时延抖动小于20微秒;根据业务需求灵活调整安全服务,应对变化的安全威胁。

2.4 算内网络:智能无损、卓越性能

无损以太(0丢包,100%释放算力)

·     技术应用:确保在数据中心内部的以太网环境中,数据传输零丢包,完全释放服务器和存储设备的算力。

·     技术实现:采用先进的拥塞控制协议和流量管理策略,如PFC(Priority-based Flow Control,基于优先级的流量控制)和ECN(Explicit Congestion Notification,显式拥塞通知)。

·     技术价值:无损传输技术显著提高了数据处理速度和网络的可靠性,对高性能计算和实时数据分析等场景至关重要。

超大规模组网(万GPU级超大规模组网)

·     技术应用:支持构建规模巨大的数据中心网络,连接成千上万个GPU,提供海量的计算资源。

·     技术实现:结合了分布式架构和高性能的网络设备,通过高密度的交换机和路由器实现超大规模的互联。

·     技术价值:这种超大规模组网能力使得算力资源可以集中管理和调度,极大地提高了整个网络的计算能力和效率。

2.5 算网调度:智能优化、高效管理

算力路由(按需优化路由、实时路径调整)

·     技术应用:算力路由技术使网络能够感知计算资源(算力)的需求,并为之提供最优路由选择。该技术根据实时的算力资源状态和网络资源状况,动态为服务请求分配传输路径和计算资源。

·     技术实现:此技术采用服务质量(QoS)和服务级别协议(SLA)标准来制定灵活的路由策略。它依赖于实时更新的网络拓扑信息,智能选择最适合当前业务需求的路径和算力节点。

·     技术价值:算力路由技术显著提升了网络的动态响应能力和服务的总体可用性,确保高效利用算力资源和网络传输的高效率,同时优化了用户体验。

算网大脑(智能决策、自动化调度)

·     技术应用:算网大脑作为智能编排和弹性调度全网算力资源的关键组件,集成了人工智能和大数据分析技术。作为智算网络的中枢,它负责进行智能决策和自动化调度,以提高资源的使用效率和可用性。

·     技术实现:算网大脑通过全面感知算力网络的全局数据并进行实时分析,能够自动识别计算需求和网络状态的变化。基于这些信息,它调整资源分配和任务调度策略,以满足不断变化的业务需求。

·     技术价值:算网大脑的智能化管理显著提高了整个网络的自适应能力和操作效率,减少了对人工干预的依赖。此外,它为用户提供了更加稳定、高效的计算服务,优化了整个算力网络的性能。

 

方案特点

H3C的算力网络解决方案具备以下特点:

·     分层架构:该方案采用了分布式多中心云化架构,提高了系统的可靠性和可扩展性。它由总部算网大脑和多个区域算网大脑组成,形成了一个全国覆盖的超级算网大脑网络。区域算网大脑负责处理本地的计算需求,降低延迟,提升用户体验,而总部算网大脑则负责全网算力资源的统筹调配,以降低整体的算力成本。

·     协议解耦:算网大脑通过BGP协议传递全网的算力和网络信息,实现系统解耦,避免强耦合可能带来的依赖风险和故障隐患。同时,最小化了对路由器的改造需求,降低运维成本,减少了对路由器软件的依赖。

·     标准接口:利用标准化的算网评估模型进行计算,该模型综合度量了计算、存储、时延及成本等因素,以便于提供合理的资源调度方案。

·     安全可靠:基于SRv6 SFC技术构建了动态的防护边界,加强了算力网络的边界安全。这种方法不仅保障了资源使用的合理性,还有助于降低算力网络的总体运营成本。

图11 方案特点

 

方案价值

H3C的算力网络解决方案通过其先进的管理和调度能力,不仅提高了资源的利用率和操作的便捷性,也为企业的数字化转型提供了强大的推动力。该方案的技术价值包括:

·     通用算力与智能算力的统一管理:利用先进的资源编排和智能调度技术,实现对通用和智能算力资源的精确匹配与供应,确保用户按需获得稳定而可靠的算力资源,尤其在需求剧增的情况下,算力网络能够自适应地调整资源分配,确保服务的连续性和稳定性。

·     多算力中心资源的统一管理和调度:算力网络超越了物理边界,通过统一的管理和调度平台,整合了分散在不同地理位置的数据中心资源,这不仅提升了运营效率,还降低了跨区域资源管理的复杂性。

·     异构厂商算力资源的统一管理:通过实施标准化的接口,算力网络的调度系统实现了对不同厂商和不同种类算力资源的集中管理,这为资源的多样性和灵活性提供了保证,同时简化了运维管理流程。

·     自动化、统一的服务和运营门户:算力网络通过一站式的服务平台,使得算力资源的访问和管理变得像网络购物一样简单直观。此外,其自动化的资源治理和计费系统为精细化运营提供了坚实的数据支持,助力企业做出更明智的决策。

图12 H3C算力网络解决方案的技术价值


 

算力网络可支持不同规模的计算、数据处理、网络带宽以及安全性等需求,可有效解决客户的关键痛点并提供商业价值。

算力快线数据传输案例

客户痛点

传统的数据传输方法往往存在高成本、时效性差、安全性低、资源利用不充分等问题。这些问题导致了数据传输效率低下,难以达到大量数据快速、可靠、经济传输的要求,而客户高效处理和传输海量数据的需求日益迫切:

·     高可伸缩性:业务需求不同,数据传输量有一定的差异,存在一定的不规律性,需要网络可实现带宽弹性调整。

·     大吞吐:需要网络配备大容量的带宽,实现同时传输海量数据。

·     可自助服务:需要为客户提供可定制网络传输带宽等参数或API接口,以应对突发紧急数据传输需求。实现网络资源灵活调度,随时按需快速传输。

图13 客户需求多样化

 

案例简介

算力快线数据传输解决方案,利用先进的算力网络技术,提供成本低、数据传输量大且覆盖广泛的服务,在便捷、安全、实惠中找到平衡点,解决客户痛点。

业务网络获取算力用户的业务数据传输时间、带宽等传输需求,根据对应的业务策略进行资源调度,并监控业务连接质量等,待数据传输完成之后,拆除业务连接并释放资源。

客户价值

算力快线方案提供海量数据传输服务,具有以下特征:

·     大吞吐弹性带宽:提供了高容量和可调节的网络带宽,使用户能够根据实际需求动态调整带宽大小,用户专线带宽从50M提升到10G

·     即时激活动态释放:可满足不同用户的海量数据传输需求,用户与算力中心互相认证后即刻根据需求建立秒级算力快线业务连接,时延缩短55%。数据传输完毕后,系统自动拆除连接,动态释放资源给其他需求。

·     多样接入:支持多种接入方式(例如无线、专线或PON等),实现算力资源的高效互联。

·     安全稳定:可对业务进行端到端管理,实时监控连接状态。

·     自助服务:用户可根据需求设置传输模式、带宽等参数,可利用API与现有数据平台无缝对接,按需灵活调用网络资源。

图14 算力快线数据传输方案特征

 

案例组网

科研所算力用户需要将海量数据传输到算力中心进行分析处理:

·     科研所算力用户和算力中心均通过算力快线接入网络。

·     算力用户可在网页上订购算力业务(设置连接带宽、时长等参数),可以通过API接口与现有数据平台对接。

·     实现端到端管理,建立保障业务连接。

·     传输业务结束后,立即拆除连接及时释放资源。

图15 算力快线方案组网示意图

 

确定性网络工业控制应用案例

客户痛点

在工业网络中,大量的新业务迫切需要建立一种可提供“准时、准确、可靠”海量数据传输服务质量的新一代网络,将端到端时延控制在微秒到几毫秒级,将时延抖动控制在微秒级,将可靠性控制在99.9999%以上。而传统IP网络,因其“尽力而为”的转发逻辑以及存在微突发和拥塞的情况,无法在海量互联网连接的同时提供端到端报文转发的确定性。

·     缺少有界时延抖动保证:统计复用出端口带宽资源,存在排队等待和拥塞,业务时延在几十毫秒甚至秒级,并存在长尾时延。

·     远距离高可靠传输难:在跨省或跨国的超远距离的工业控制应用场景下,尤其是涉及多节点和并行处理的任务时,要保证高性能计算,很难维持网络的高确定性和低延迟。

·     难以应对突发流量:发端流量大小和发包时间不可控,存在多条流在下游节点汇聚以及某时刻流量激增的现象。

·     混合流量管理:在确定性流(如工业控制信号)和非确定性流(如常规数据传输)共存的网络环境下,如何优先保障关键业务流量的质量。

图16 传统IP网络的问题

 

案例简介

广域确定性网络系统覆盖北京、上海等30多个城市,在100%网络负载、途径13个省市、13000公里、10000条确定性业务情况下,实现了零丢包、时延抖动低于20微秒(us)。经权威部门测试,H3C广域网确定性路由器的端到端传输各项指标均达到国际先进水平。

客户价值

确定性网络的目标是“说到做到”,即为大规模网络建设提供“准时、准确、可靠”的确定性质量保障。

·     提供端到端确定性QoS保障:提供端到端的QoS保障,在尽力而为网络上达到专线的效果。例如,“南京-武汉-昆明-西宁-兰州-长春-南京”9000公里远距离传输场景,平均时延73ms,抖动13us

·     确定性流与尽力而为流共存:确定性业务流未使用的带宽可以动态分配给尽力而为流使用,通过对确定性和非确定性流的精细化管理,保障关键业务不受干扰。

·     广域覆盖:可实现大规模覆盖的确定性网络,增强业务的可达性和扩展性。

图17 确定性网络的特征

 

确定性网络就好比是在以太网络上建设了一个“超级高铁系统”:

·     能够进行定点发车、长距传输、精确到站时间,并且每站定长停靠,最终保证端到端时延可预期。

·     能够与“尽力而为”的普通列车共网通行,最大化利用网络带宽资源。

案例组网

本组网案例展示在北京、南京、上海、广州、成都、杭州等多个节点间部署的确定性网络。

·     核心节点均采用核心路由器,部署EVPN L3VPN over SRv6承载业务,支持跨省长距离、多跳的网络连接。

·     采用RCQFDetNet OAM、多发选收技术,确保网络的低延迟和高可靠性,实现大规模的确定性网络平面建设。

¡     采用RCQF技术满足端到端确定性传输过程中的“低抖动”需求,同时增加了弹性能力使其适用于广域网和5G网络。

¡     采用DetNet OAM技术实现业务报文在SRv6网络中的确定性传输。

图18 确定性网络应用案例组网示意图

 

算网联合调度平台建设

客户痛点

算力资源面临诸多挑战,包括算力资源利用和协调效率低,缺乏有效的统一管理等,亟待进行算网大脑建设,实现资源的高效整合和优化管理。

·     多元化算力需求:客户面临多样化的算力需求,需要处理不同规模和复杂性的计算任务,传统的单一算力资源无法满足需求。

·     资源分配效率低:现有的资源分配机制无法实现快速、高效的算力资源分配,导致资源浪费和任务延迟。

·     跨域资源调度困难:难以在跨区域、跨厂商的环境中实现有效的资源调度,存在兼容性和稳定性问题。

·     缺乏统一的管理平台:缺少一个能够统一管理和调度多元算力资源的平台,使得操作复杂且效率低。

图19 算力资源面临诸多挑战

 

案例简介

算网联合调度平台,实现了跨中心、跨平台、跨区域多元算力的高效整合与配置,让计算任务得到经济、有效的编排与调度。该平台融合智算加速,纳管异构算力,通过算网编排技术高效统筹和调度算力资源。作为算力调度指挥中心,它能够提供高质、高量、及时、实时的算力服务保障。

客户价值

算网联合调度平台可提升地区算力资源使用效率,节省地区算力建设资金,助推地区数字经济发展,实现地区算力资源有效供给。

图20 算网联合调度平台建设客户价值

 

案例组网

在算网联合调度平台方案组网中,网络部署主要思路如下:

·     部署算网大脑,该平台是整个网络的指挥中心,集成了算力运营、算网编排、算网调度和算网控制等功能,实现对分散在不同地理位置的计算资源的统一管理和调度。

·     建立跨域骨干网络,在主要地区建立骨干网络节点,确保跨区域的高速稳定连接,使得算力资源可以快速响应并处理来自不同地区的计算需求。

·     构建算力中心网络,每个算力中心都作为一个资源池,配备有高性能的CPUGPU等硬件资源,专门用于处理来自算网大脑分配的各种计算任务。算力中心通过本地的算力调度器与算网大脑紧密协作,高效地完成任务的执行和资源的再分配。

图21 算网联合调度平台建设组网示意图

 

“云训边推”模式智算中心建设案例

客户痛点

随着AI在百行千业的深入应用,产业对人工智能算力的需求,尤其是对大模型训练和实时推理的需求快速增长,面向AI的算力基础设施随之成为新基建的重点。当前网络存在如下问题:

·     无法满足算力需求:现有的算力资源无法满足快速增长的需求,导致AI项目的推进速度受限。

·     网络性能不足以支撑大规模AI应用:大规模模型训练和参数同步对网络带宽和延迟提出了前所未有的高要求,现有网络架构难以承载高强度的数据流,从而影响模型训练效率和推理响应速度。

·     模型同步低效,频繁重传:网络延迟高和丢包率高导致模型同步效率低下,频繁的数据重传不仅占用了大量的网络资源,还严重影响训练进度和成本。

·     算力资源分散,利用效率低:国内智算资源规模普遍较小,且分布分散,导致资源利用效率低,难以支持大规模、高性能的AI应用需求。

图22 客户痛点问题

 

案例简介

“云训边推”模式智算中心作为新型公共算力基础设施,主要为AI应用提供必需的算力支持、数据处理和算法服务,确保人工智能项目的高效执行和可持续发展,从而加速技术创新与应用实践的融合。

“云训边推”模式,主要采用“中心云-边缘云”两级云架构部署网络。

·     在中心云智算中心部署训练服务器,负责中、大规模模型训练及离线推理服务,满足高算力、高带宽网络连接的需求。

·     在边缘云智算中心部署推理服务器,就近提供低时延和高吞吐的推理服务,满足高效数据处理、低延迟网络访问的需求。

案例价值

“云训边推”模式智算中心,可满足不同行业和业务的特定计算需求,能够实现高效、低延迟的数据处理和模型训练,支撑跨区域的协同工作。

图23 云训边推”模式智算中心建设案例价值

 

案例组网

中心云智算中心和边缘云智算中心,来分别承担AI模型训练和推理任务。

·     在中心云智算中心部署训练服务器,模型训练完成后,通过承载网将训练后的模型参数下发至所有边缘云智算中心。

·     在边缘云智算中心部署推理服务器,提供低时延推理服务。

·     为满足中心云和边缘云之间算力高质量互联互通需求,部署G-SRv6多路径聚合技术、SRv6层次化网络切片技术等保障网络的高带宽高可靠,从而实现资源的高效共享和协同工作。

·     从终端到边缘云可通过PONSPN4G/5GSDWAN等多种方式接入。

图24 “云训边推”模式智算建设方案组网示意图

 

新华三官网
联系我们