总25期
New IT in Users Eyes    AI驭智
New IT in Users Eyes    AI驭智
异构计算中的新型互连技术
文/秦娟

近年来,云计算、大数据、人工智能、物联网等新一代信息技术的快速发展,人类社会逐渐步入万物互联、万物智能化的数字经济时代。新的技术催生了大量新兴行业应用,如无人驾驶、智能制造、智能家居,这些应用产生的数据量呈现指数级增长。IDC预测数据显示,到2023年全球各种物联网终端数量将达352亿个,海量连接产生的数据量达175ZB;数据的形态同样存在多样性,除了文本、数字等结构化数据外,还包括大量图像、语音、视频等非结构化数据。面对行业智能应用及数据的多样性趋势,传统单一CPU计算架构难以满足业务数据处理和用户体验需求,同时拥有高性能、高密集计算能力的“异构计算”成为必然。

据统计,2020年80%的数据是非结构化数据;同时数据实时处理的需求也在快速增长。面对行业智能应用及数据的多样性趋势,需要越来越强大、越来越高效的计算系统,传统单一CPU计算架构难以满足业务数据处理和用户体验需求,同时拥有高性能、高密集计算能力的“异构计算”成为必然。

多样化应用需要多元异构计算

异构计算主要是指使用不同指令集和体系结构的计算单元来组成系统的计算方式,从而应对不同业务对算力的不同需求。如计算密集型应用需要计算平台执行逻辑复杂的调度任务,而数据密集型应用则需要高效率地完成海量数据并发处理。

早期的异构计算架构是基于CPU和GPU组成,CPU主要擅长管理和调度任务,GPU主要擅长做3D图像处理、密集并行计算。目前异构计算已经扩展到更多计算架构,如CPU、GPU、ASIC、FPGA等的组合。异构计算系统能够像搭积木一样灵活选择,按需混搭,可以获得比传统系统更高的应用性能,将在更多的行业领域发挥重要的作用。

异构中的新型互联

以异构计算为基础的计算系统中,越来越多不同类型的通用处理器(如X86、ARM)和协处理器(如GPU、NPU、FPGA……)通过I/O总线——主要是PCIe总线进行有效地协同工作,每个计算系统上面都有很大的主存(Host RAM),每个协处理器设备中也有自己的内存,但是主存和设备内存是割裂的。由于PCIe协议事务层不支持Cache Cohernecy的处理,PCIe设备端无法缓存CPU地址域中的数据,每次必须先去访问主存来获取数据,从而导致交互延迟非常大。如AI服务器中通过PCIe总线挂接GPU、FPGA/ASIC等加速卡,现在普遍采用的操作是将数据从主存拷贝到加速卡上的内部存储器,加速卡进行数据计算处理,计算完成再将结果拷贝回主存。内存的分割造成了数据反复拷贝,导致系统性能下降。以异构计算为基础的计算系统迫切需要有高带宽、高效率、低延迟的新型互联技术来减小数据移动,从而提升数据处理性能。同时也需要统一的规范标准来促进解决方案的标准化落地。

图 1 多元异构计算架构图

异构计算下的新型互联技术按照时间顺序先后出现了CAPI、Gen-Z、CCIX、NVLink、CXL等互联技术。其中,CAPI是IBM主导,是允许外部设备和处理器CPU共享内存的接口技术,已在其POWER9处理器的Bluelink物理接口上支持;Gen-Z是Gen-Z组织提出的以内存为中心的总线结构式协议,专注于机架内和机架间级别的结构连接;CCIX是 Arm主导,是运行在PCIe链路上的缓存一致性协议;NVLink是英伟达私有,是一种点对点结构的串行通信协议,用于加速GPU到GPU、CPU到GPU的互联速度;CXL是Intel主导,基于PCIe5.0物理通道,在主机 CPU 和加速器卡之间共享高速缓存,改善CPU与加速卡之间的通信能力。下面表格针对以上几种互联技术进行了简单总结:

以异构计算为基础的系统中,CPU与GPU、FPGA/ASIC等加速协处理器之间关系越来越紧密。未来,随着AI、多媒体、图像和语言处理等新兴应用创新发展,互连技术将会变得越来越重要,高带宽、高效率、低延迟的新型互联技术将推动异构计算系统高速硬件接口设计全面进入内存一致性时代。

作为智能计算基础设施头部厂商,新华三集团一直在对新一代互连技术(如CXL)进行持续关注和跟进,力争以最快速度将新的技术和功能整合进我们设备中,以使设备发挥其最高性能,帮助客户提升其数据处理效率。

分享到
关闭