智算网络技术

人工智能算力网络(简称智算网络)通过对分布在不同地域的智能计算中心高速网络互联,形成灵活调度、资源共享、统一服务的一体化智算基础设施,其建设过程中需要在智算网络体系结构设计、多中心高效组网与编排、系统软件栈研发、智算网络新型服务模式等关键方向形成技术突破。国内外围绕智算网络关键技术的研究工作正逐渐开展,但目前尚未形成统一的技术体系,且缺乏在实际大规模智算网络设施上的实践验证。

鹏城实验室联合国内多家单位,基于以鹏城云脑为枢纽节点的智算网络基础设施,积极开展智算网络技术研发,相关成果将逐步在启智社区开源,目前主要研发内容包括:

统一数据存储:基于各智算中心的异构存储资源,构建统一的数据存储网络,为智算网络所需的大量数据集、模型、算法等数据提供高速访问与共享交换服务。

调度适配器:通过在任务与智算中心间增加抽象层,屏蔽智算中心异构硬件、异构系统等差异,使得任务负载“一次编程,随处运行”。

云际管理与作业调度:对智算网络中跨集群的算力、存储、网络等资源进行统一管理和协同调度,以实现全网资源的高效使用。

开发协作平台:通过在线Web应用提供算力网络服务。

协同计算:基于智算网络基础设施及服务,由多个智算网络用户按照应用场景抽象的任务角色利用数据、算力、模型、网络等资源协同完成一个智能计算任务的计算模式。

 

开源智算网络技术栈参考实现