CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群( 二 )


打破算力与存储之间的瓶颈,高效利用数据是AI芯片的另一大挑战 。在国内最大的AI计算单芯片中,集成了4颗三星HBM2E,支持最高64 GB内存,内存带宽最高达1.8 TB/s 。
“HBM2E是目前全球最快的存储芯片,通过集成4颗HBM2E,邃思2.0可以实现算力和存储带宽的匹配,实现更强算力 。我们一直努力把理论算力和理论带宽匹配,有效控制整个产品的成本 。采用最新的技术并不会使我们产品的整体拥有成本增加 。”张亚林表示 。
在燧原的产品理念中,更好的AI芯片只是构建AI系统的基础,客户最关心的并非底层AI芯片的参数 。
AI芯片的比拼上升到系统级
“客户并不会直接关心芯片层面的理论参数,AI落地的时候,他们更看重的是包括硬件、软件、互联的整体解决方案的有效利用率 。所以我们已经从单芯片的维度升级到了更高的系统层面 。这也是燧原推出整机多卡、多卡互联、分布式软件、云端部署的一整套交钥匙解决方案的原因 。”张亚林说道,“我们也更强调通过低碳绿色化的云燧智算集群服务客户 。”
AI芯片的比拼要升级到AI系统的比拼,从用户角度,对比AI系统的维度就会包含五个:软硬件一体的性价比、能效比、易用性、迁移成本、范化性 。
既然是系统,互联技术非常关键 。目前,业界通过不同的远程直接内存访问技术(RDMA)进行互联,比如InfiniBand、iWARP、RoCE 。燧原采用的是自研GCU-LARE互联技术实现云燧AI加速卡的多卡集群互联,同时兼容业界其它RDMA技术便于与其它系统互连 。
据介绍,燧原自研的GCU-LARE多卡集群互联技术,支持6个带宽50GB/s的卡间传输端口,总带宽达到300 GB/s 。
GCU-LARE具备两大特色,一个是不需要传统互联技术的连接卡或桥接卡,可以直接通过线缆的方式直连,降低成本 。另一个是能够根据用户的需求和机房的实际情况,定制不同的拓扑结构,能够轻松构建4000卡以上的大型训练集训拓扑,实现定制化集群产品CloudBlazer Matrix 。
在云燧T20的发布会上,燧原发布了云燧智算集群 CloudBlazer Matrix 2.0,最高可实现1.3E(130000T)的单精度只能算力集群 。
CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群
文章图片
“云燧的互联接口在单口速度保持不变的前提下,接口数量从T10的4个增加到T20的6个,带宽提升150% 。用云燧T20可以打造中国E级单精度算力集群 。”张亚林表示 。
【CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群】
CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群
文章图片
CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群
文章图片
CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群
文章图片
“在软件易用性和迁移成本方面,我们投入了大量精力 。”
与云燧T20一起发布的还有软件平台驭算2.0,进行了多方面提升,包括:为用户提供高度契合业界标准的编程接口,以支持高性能自定义算子开发;全面优化的动态性模型支持;引入业界先进的MLIR编译框架;基于启发式自适应方法的算子泛化实现以及图优化策略,可以广泛支持更多标准模型和自定义模型训练 。
张亚林介绍:“驭算2.0的重点是提升易用和泛化,同时也能降低迁移用户的成本 。我们的产品从第一代开始就采用的热启动的方式降低用户的迁移难度和成本,也就是在进行硬件架构设计的时候就已经考虑了客户的需求,在落地的时候得到了客户认可 。如今第二代产品,同样采用热启动的方法,使用更多的用户反馈进一步降低迁移难度和成本 。”
CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群
文章图片
“在软件层面,现在业内比较通用的两个AI框架是TensorFlow和Pytorch,如果他们的模型完全基于框架开发,切换到燧原的产品只需要硬件切换,软件可以无缝切换 。软硬件一定是一体化,也只有软硬一体化设计才对客户有更高价值 。”张亚林进一步表示 。
因此,驭算2.0还支持资源虚化、重组以及系统级设备虚拟化,使用户在业务部署和资源整合上可拥有更为灵活的方法;支持4000卡规模以上的集群分布式训练;升级系统兼容性方案、部署方案和RAS,支持主流操作系统最新发型版,开箱即用,简化客户定制系统集成,对客户的部署和运维更加友好 。


推荐阅读