人工智能AI基准测试MLPerf模型少、更新慢，地平线提出的MAPS会更好吗？

“要达成一个所谓的标准是极其困难的，因为大家虽然目标大致相同，但出发点不一样。 “黄畅同时指出，评估芯片的AI性能，应该换一个角度，可以从准、快、省这三个维度。 ”

本文插图
“准”是反应实际任务上的算法精度，在不同的任务中，学术界已经有比较多共识。 “快”通常有两个维度，延迟和吞吐率。 “省”就是成本和功耗。黄畅认为，对于AI芯片的性能评估来讲，准和快是两个非常重要的因素。同一个芯片下，两个因素负相关，快了就会牺牲准确性，准了往往需要付出速度的代价，因此需要放在一起折中考量。
地平线的MAPS如何？
AI芯片性能的评估需要快、准、省，在这三个维度下地平线提出的新的AI芯片性能评估的方法称为MAPS（Mean Accuracy-guaranteed processing speed），意思是在精度有保障的范围评测芯片的平均效能，得到一个全面、完整、客观、真实的评估。
黄畅表示， MAPS对行业有六个创新之处：

第一，可视化芯片的Benchmark ，可以通过可视化的图形更精确的表达，在数据之间如何做折中。
第二，关注真实、面向结果的需求，只在乎精度和速度，不在乎中间任何关于算法的取舍和选择。
第四，隐藏与最终结果无关的中间变量，包括模型、输入大小、批处理的量是多大。

第五，是一种对Benchmark的解释，在算力之外帮助用户理解芯片到底能跑多快以及多好。

第六，留有最大的空间引导客户使用最优的方式使用这颗芯片，这一点非常重要，能够指导客户使用这个芯片的最佳实践。

MAPS的计算为公式为：MAPS = 所围面积 /（最高精度-最低精度），含义为在 ImageNet 的主流精度范围（75%~80%）下，速度最快的模型所代表的点（由精度和帧率确定）所围多边形面积大小即为芯片处理ImageNet AI任务的能力大小。
其代表的真实的AI效能也有对应的公式：MAPS/Watt &ampMAPS/＄=TOPS/ Watt &ampTOPS/＄ X Utilization X MAPS/TOPS

人工智能AI基准测试MLPerf模型少、更新慢，地平线提出的MAPS会更好吗？ | CCF-GAIR 2020

本文插图
这三个要素中，第一个TOPS/Watt、TOPS/$是传统的方式。中间的要素有效利用率，是根据架构特点，利用编译器等去统化地解决极其复杂的带约束的离散优化问题，得到一个算法在芯片上运行的实际的利用率，实际是软硬件计算架构的优化目标。第三个要素是AI算法效率，指的是每消耗一个TOPS算力，带来的实际AI算法性能，体现的是AI算法效率的持续提升，过去几年AI算法效率提升非常快。如2014年提出的VGG19计算量是2019年提出的EfficientNet B0的100倍，同时EfficientNet B0精度更高，相对于算法效率每9个月提升一倍，大幅快于18个月翻倍的摩尔定律。
黄畅表示， “三个要素中，第一个反映的是旧摩尔定律，第三个反映的是新摩尔定律。前段时间Open AI Lab以及其他的研究机构都发现，过去几年算法提升效率非常快，几个月的时间效率就会翻倍。如果我们关注这样的效率的提升，应该把握这三要素中最主要、变化最快的要素，并且根据这个要素去指导处理器架构的设计，进行关键的取舍决策。 ”
地平线为什么要提出MAPS这样的评价指标？黄畅在分享中也提到， “这个概念其实受到了EdgeTPU的启发。它在设计之初，并没有充分考虑高效算法的发展趋势。所以当EfficientNet算法出现的时候，并不能很好适配到EdgeTPU上。但谷歌将该算法针对EdgeTPU的特点进行了专门的优化，得到速度更快、精度损失非常少的一组模型EfficientNet-EdgeTPU 。这一点和我们自己的摸索和实践是一致的——算法的选择只是手段，真正的目的应该是其在具体芯片运行所表现出来速度和精度。 ”