CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群

今天,中国最大AI单芯片邃思2.0在上海正式发布,这款芯片面向AI云端训练,尺寸为57.5毫米 x 57.5毫米(面积为3306mm2),达到了芯片采用的日月光2.5D封装的极限,与上代产品一样采用格罗方德12nm工艺,单精度FP32算力为40TFLOPS,单精度张量TF32算力为160TFLOPS,整数精度INT8算力为320TOPS 。
CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群
文章图片
CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群
文章图片
燧原科技创始人兼 COO 张亚林告诉雷锋网(公众号:雷锋网):“基于邃思2.0芯片打造的云燧T20加速卡支持的集群规模从上一代云燧T10的千张卡提升至8000卡,用云燧T20可以打造一个E级单精度算力集群CloudBlazer Matrix 2.0 。”
E(Exascale)级计算也就是百万兆级的计算,是目前全球顶尖超算系统新的追逐目标 。用一个不精确的说法来解释百万兆级计算,一个百万兆级计算机一瞬间进行的计算,相当于地球上所有人每天每秒都不停地计算四年 。
CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群
文章图片
那号称中国最大AI单芯片,有何特色?竞争力到底如何? 
CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群
文章图片
燧原科技CEO赵立东(左)与 燧原科技COO张亚林(右)
中国最大AI计算单芯片的两个“首个”
2019年底,燧原科技发布了从启动项目研发到发布用时仅18个月的云端训练芯片邃思1.0,基于邃思1.0的云燧T10加速卡单精度算力高达20TFLOPS 。时隔一年半,邃思2.0和云燧T20就推向市场 。之所以说“就”,是因为云端训练这样复杂的超高算力芯片通常的迭代周期是两到三年一代,如果遇上特殊情况可能还会延迟半年 。
CPU处理器|中国最大AI芯片问世!能组建一个顶级超算集群
文章图片
“我们第一代和第二代产品的迭代节奏快于业内速度,主要有两方面的原因,一方面是首代产品落地后得到了用户的反馈,另一方面是我们内部技术和架构的更新,催生了第二代产品 。”张亚林说,“从一开始我们就强调精准执行产品路线图,第二代产品精准符合燧原的产品路线图 。”
至于燧原未来是否会保持云端AI训练芯片一年半一代的更新速度,张亚林表示目前暂不方便透露,但会精准执行其产品路线图 。
想要在整个行业缺芯的大背景下精准执行产品路线图显然是一个巨大的挑战,雷锋网了解到,在2020年疫情开始的时候,燧原准备了两套方案,同时发挥团队成员超过15年以上行业经验的优势,以及第一代产品开发过程中建立的供应链关系,最终保证产品的如期推出 。
张亚林说:“燧原的整个供应链非常稳健,客户不必担心燧原产品的供货问题 。”
在路线图精准下,为什么要把芯片面积做大?张亚林解释,燧原做芯片是高举高打,做大芯片和高端芯片是我们追求的目标,芯片的尺寸大小背后代表的是科技含量,对于中国芯片行业的贡献才是更大的价值体现 。
但更大的芯片面积,就代表着更高成本 。对此,张亚林表示:“一个成熟的产品必须考虑回报率(ROI) 。我们需要做的是在定义产品时,计算好这个产品在市场上的整体收入和销量,从整个产品的成本角度和能够带给客户的价值定义产品 。所以我们会持续关注前沿技术,但不会一味追求最新的技术,依然从芯片的性能、成本、功耗三方面考虑 。”
邃思2.0的特性中,有两个中国首个,一个是首个支持TF32精度的AI芯片,另一个是首个支持最先进内存HBM2E的产品 。
AI业界一直在追求用更小的数据位宽实现更高的模型精度 。因此,AI模型不断优化,数据类型不断推新,AI芯片作为底层支撑就需要在支持更多数据类型的同时消耗更低能耗 。
TF32代表的是张量单精度32位数据类型,相比传统的FP32,TF32在位宽更大的同时,消耗的带宽以及计算资源显著更小,被业界视为能够取代全尺寸单精度数据的革新性数据精度 。
“目前业界的判断是,TF32对大部分AI场景都有应用潜力 。我们紧跟国际创新者的步伐,很早就布局数据进度的研究和分析,所以才有了燧原第二代产品就支持TF32精度 。”张亚林同时指出:“邃思2.0支持全精度AI精度范围,包括FP32、TF32、FP16、BF16和INT8 。要用一个非常革命性的算力引擎囊括所有的精度,并且能够做到所有的精度的算力都有效,这是非常大的挑战 。”


推荐阅读