人工智能AI基准测试MLPerf模型少、更新慢,地平线提出的MAPS会更好吗? | CCF-GAIR 2020( 二 )


“要达成一个所谓的标准是极其困难的 , 因为大家虽然目标大致相同 , 但出发点不一样 。 “黄畅同时指出 , 评估芯片的AI性能 , 应该换一个角度 , 可以从准、快、省这三个维度 。 ”
人工智能AI基准测试MLPerf模型少、更新慢,地平线提出的MAPS会更好吗? | CCF-GAIR 2020
本文插图
“准”是反应实际任务上的算法精度 , 在不同的任务中 , 学术界已经有比较多共识 。 “快”通常有两个维度 , 延迟和吞吐率 。 “省”就是成本和功耗 。 黄畅认为 , 对于AI芯片的性能评估来讲 , 准和快是两个非常重要的因素 。 同一个芯片下 , 两个因素负相关 , 快了就会牺牲准确性 , 准了往往需要付出速度的代价 , 因此需要放在一起折中考量 。
地平线的MAPS如何?
AI芯片性能的评估需要快、准、省 , 在这三个维度下地平线提出的新的AI芯片性能评估的方法称为MAPS(Mean Accuracy-guaranteed processing speed) , 意思是在精度有保障的范围评测芯片的平均效能 , 得到一个全面、完整、客观、真实的评估 。
黄畅表示 , MAPS对行业有六个创新之处:

  • 第一 , 可视化芯片的Benchmark , 可以通过可视化的图形更精确的表达 , 在数据之间如何做折中 。
  • 第二 , 关注真实、面向结果的需求 , 只在乎精度和速度 , 不在乎中间任何关于算法的取舍和选择 。
  • 第四 , 隐藏与最终结果无关的中间变量 , 包括模型、输入大小、批处理的量是多大 。

  • 第五 , 是一种对Benchmark的解释 , 在算力之外帮助用户理解芯片到底能跑多快以及多好 。
  • 第六 , 留有最大的空间引导客户使用最优的方式使用这颗芯片 , 这一点非常重要 , 能够指导客户使用这个芯片的最佳实践 。
  • MAPS的计算为公式为:MAPS = 所围面积 /(最高精度-最低精度) , 含义为在 ImageNet 的主流精度范围(75%~80%)下 , 速度最快的模型所代表的点(由精度和帧率确定)所围多边形面积大小即为芯片处理ImageNet AI任务的能力大小 。
    其代表的真实的AI效能也有对应的公式:MAPS/Watt &ampMAPS/$=TOPS/ Watt &ampTOPS/$ X Utilization X MAPS/TOPS
    人工智能AI基准测试MLPerf模型少、更新慢,地平线提出的MAPS会更好吗? | CCF-GAIR 2020
    本文插图
    这三个要素中 , 第一个TOPS/Watt、TOPS/$是传统的方式 。 中间的要素有效利用率 , 是根据架构特点 , 利用编译器等去统化地解决极其复杂的带约束的离散优化问题 , 得到一个算法在芯片上运行的实际的利用率 , 实际是软硬件计算架构的优化目标 。 第三个要素是AI算法效率 , 指的是每消耗一个TOPS算力 , 带来的实际AI算法性能 , 体现的是AI算法效率的持续提升 , 过去几年AI算法效率提升非常快 。 如2014年提出的VGG19计算量是2019年提出的EfficientNet B0的100倍 , 同时EfficientNet B0精度更高 , 相对于算法效率每9个月提升一倍 , 大幅快于18个月翻倍的摩尔定律 。
    黄畅表示 , “三个要素中 , 第一个反映的是旧摩尔定律 , 第三个反映的是新摩尔定律 。 前段时间Open AI Lab以及其他的研究机构都发现 , 过去几年算法提升效率非常快 , 几个月的时间效率就会翻倍 。 如果我们关注这样的效率的提升 , 应该把握这三要素中最主要、变化最快的要素 , 并且根据这个要素去指导处理器架构的设计 , 进行关键的取舍决策 。 ”
    地平线为什么要提出MAPS这样的评价指标?黄畅在分享中也提到 , “这个概念其实受到了EdgeTPU的启发 。 它在设计之初 , 并没有充分考虑高效算法的发展趋势 。 所以当EfficientNet算法出现的时候 , 并不能很好适配到EdgeTPU上 。 但谷歌将该算法针对EdgeTPU的特点进行了专门的优化 , 得到速度更快、精度损失非常少的一组模型EfficientNet-EdgeTPU 。 这一点和我们自己的摸索和实践是一致的——算法的选择只是手段 , 真正的目的应该是其在具体芯片运行所表现出来速度和精度 。 ”


    推荐阅读