2月25日,DeepSeek在“开源周”的第二日开源了DeepEP通讯库。DeepSeek暗示,这是第一个用于MoE(群众)模子考试和推理的开源EP通讯库。
“高效、优化的全员交流;节点内和节点间均援手NVLink和RDMA(良友径直内存走访,一种通讯本事);用于考试和推理预填充的高糊涂量内核;用于推泄露码的低延伸内核;原生FP8转化援手;生动的GPU(图形措置器)资源铁心,杀青计较与通讯通常。”DeepSeek如斯先容DeepEP的特色。

EP即expert parallelism(群众并行),是一种在大鸿沟散播式AI模子考试中使用的本事,能用于提高模子并行措置才能和考试成果。DeepSeek在代码托管网站GitHub上解说,关于延伸明锐的推泄露码任务,DeepEP包含有一组使用纯RDMA的低延伸内核,不错用于将延伸最小化,DeepEP还引入一种通讯与计较通常的措施,这种措施不错不占用SM(流措置器)资源。简而言之,DeepEP亦然用于提高GPU运用成果的要道本事之一。
性能可并排OpenAI o1的DeepSeek-R1是基于DeepSeek-V3考试出来的模子,DeepSeek-V3此前就以不大鸿沟使用发轫进的英伟达GPU、低考试预算著称。为了在已有的GPU上考试大模子,DeepSeek进行了诸多革新,以高效运用GPU算力。有学界东谈主士此前就解读了DeepSeek-V3杀青计较与通讯通常的垂危作用。清华大学计较机系长聘教会翟季冬在解读DeepSeek的关系本事时暗示,DeepSeek-V3为了考试成果提高,作念了四方面的优化,包括负载平衡、通讯优化、内存优化和计较优化,为此,DeepSeek团队充分挖掘了算法、软件和硬件协同革新的后劲。举例DeepSeek为了裁减通讯支出思了许多目标,包括紧密化编排计较和通讯。
“DeepSeek提议一种活水线并行算法DualPipe,通过紧密铁心分拨给计较和通讯的GPU SM数目,杀青计较和通讯都备通常,从而提高GPU资源的运用率。时间,DeepSeek团队使用了英伟达底层的PTX谈话来铁心SM的使用。” 翟季冬暗示。
中存算半导体董事长陈巍默契DeepSeek-V3和R1考试结构的特有上风时也指出,DeepSeek缱绻了DualPipe算法来杀青更高效的活水线并行,并通过计较与通讯的通常荫藏了大模子考试经过中的大部分通讯支出。此外,DeepSeek建立了跨节点All-to-All通讯内核,以充分运用InfiniBand和NVLink带宽,对显存使用进行了优化,使得DeepSeek无需使用不菲的张量并行即可考试DeepSeek-V3。
记者就开源DeepEP通讯库的影响磋议DeepSeek,它的回话是,DeepEP能显赫提高MoE模子的考试和推理成果,显赫裁减计较资源破钞,开源DeepEP有助于裁减AI本事的建立老本,且有助于减少重发建立。
一些网友则在DeepSeek通知开源的帖子下批驳。“DeepEP看上去像是MoE模子考试和推理的颠覆者。”有网友称。也有网友暗示,NVLink和RDMA是援手大鸿沟MoE模子的垂危要素,看来DeepSeek再次冲破了AI基础要领的极限。
DeepSeek此前通知,本周会链接开源5个代码库。加上2月24日开源的代码库FlashMLA,DeepSeek已开源了2个代码库,接下来还有3个代码库待开源。DeepSeek此前在公告中暗示,DeepSeek是探索AGI(通用东谈主工智能)的小公司开云体育(中国)官方网站,看成开源社区的一部分,每共享一瞥代码,都会成为加快AI行业发展的集体能源。