随着神经网络越来越复杂,计算量越来越庞大,神经网络的架构也不断发生变化,因而产生了可用于嵌入式系统的高性能、通用神经网络处理方案需求。楷登电子(Cadence Design Systems)稍早前公布了新的独立神经网络DSP IP内核Vision C5技术细节,这个据称是业内首款独立的神经网络DSP可运行于所有的神经网络层,其计算能力达到1TMAC /秒,硅面积为1mm2。
Vision C5 DSP针对视觉、激光雷达和传感器融合应用进行了优化,瞄准汽车电子、监控、无人机和移动装置市场。这些新兴市场的共通特色是需要极低功耗,同时需要高度可编程,以应对产品开发的灵活性和降低风险。
神经网络DSP vs.神经网络加速器
嵌入式视觉联盟的创始人Jeff Bier指出,在真实世界中,深度学习的应用程序非常丰富多样,计算需求也极具挑战性。
在汽车、无人机和安全系统中,基于摄像机的视觉系统需要两种基本类型的视觉优化计算。首先,使用传统计算摄影/成像算法增强了摄像机的输入;其次是基于神经网络的识别算法用于执行对象检测和识别。现有的神经网络加速器解决方案是连接到成像DSP的硬件加速器,神经网络代码在DSP上运行一些网络层并将卷积层卸除到加速器之间进行拆分。这种方法不仅效率低下,而且会消耗许多不必要的电力。
图片来源:Cadence Design System公司
而Vision C5 DSP架构解决了这个问题,它针对神经网络进行了优化,可加速所有神经网络计算层(卷积、完全连接、汇集和归一化),而不仅仅是卷积函数。这使得主要的视觉/成像DSP可独立运行图像增强应用,而Vision C5 DSP则运行推理任务(inference task)。
通过消除神经网络DSP和主要视觉/成像DSP之间的无关数据移动,Vision C5 DSP提供比竞争神经网络加速器更低功率的解决方案。它还为神经网络提供了一个简单的单处理器编程模型。
Cadence的Tensilica营销高级总监Steve Roddy认为,今天许多工程人员难以抉择神经网络平台的情况可望在未来几年内获得改善。“这是因为当前所有的替代方案都要做很多不必要的性能折衷,而我们必须让神经网络处理器永远在线、降低其功耗,而且要令其在每个图像上都能快速运行。作为通用神经网络DSP,新的Vision C5易于集成和非常灵活,同时能比CNN加速器,GPU和CPU提供更好的电源效率。”
作为独立DSP引擎,Vision C5具有1,024个8位MAC或512个16位MAC,可以在8位和16位分辨率下实现更好的性能,这个IP具有128路8位SIMD或64路16位SIMD的VLIW SIMD架构,适用于多核设计,并集成了iDMA和AXI4接口。
为了适应不同的应用需求,Vision C5 DSP支持可变内核大小、深度和输入尺寸,同时也适应几种不同的系数压缩/解压缩技术,并能在新的层次的支持下进行添加。相比之下,硬件加速器提供了一个刚性的解决方案,因为可重新编程性更加有限。
据表示,Cadence称与商用GPU相比,Vision C5 DSP在知名的AlexNet CNN性能基准上提高了6倍,在初始版V3 CNN性能基准上提高了9倍。为了方便开发者,Vision C5 DSP配备了Cadence神经网络映射器工具集,它将任何采用Caffe和TensorFlow等工具训练的神经网络映射到Vision C5 DSP的代码中,利用一套全面的手动优化神经网络库函数。