异数os吧 关注:2贴子:36
  • 0回复贴,共1

为何一座国产超算中心打不过8张nvidia 计算卡?(三)

只看楼主收藏回复

为何一座国产超算中心打不过8张nvidia A100计算卡?(三)
(接上篇)
在与nvlink性能差5个数量级的情况下,超算中心居然能战平8张nvidia A100,说明中国的软件优化团队确实很给力,从5个数量级的性能差距提高到了3个数量级的性能差距。但是Nvlink的不足是他只能小规模分布式场景,无法堆8张以上卡,因此他只能保持3个数量级的性能优势,而无法再扩充提高gpt参数规模和算力,如需要扩充算力和存储规模,则还需要打破无法绕的过分布式存储墙,除了CPU端操作系统换用异数OS外,真正能够缓解存储墙约束的则是在GPU中集成NIC,并实现高性能操作系统从而拥有独立的分布式任务调度能力,因此异数OS有义务移植异数OS基础理论到GPU环境。
目前异数OS已实现了GPU环境的下的TCPIP协议栈最小内核支持,这让GPU有望在高拥塞高错误的以太网环境通过通用技术扩展算力,目前实做中在RX580这样的平民GPU上实现了1 GIOPS的性能,他相当于双路128核epyc 7551在异数OS下iops性能的3倍,虽然这个表现依然和nvlink有1个数量级的性能差距,但相比linux的iops性能他提升了4个数量级,这将大大改善了分布式存储墙效率,并补充nvlink在分布式环境下无法扩充规模的不足。


IP属地:上海来自Android客户端1楼2024-05-20 13:12回复