“星光智能一号”中国首款嵌入式神经网络处理器芯片诞生
从“深蓝”到Alphgo,人工智能如何发展?
人工智能经过了跌宕起伏的发展过程,从“深蓝”对决国际象棋,到Alphago对战围棋九段李世石,人工智能都以胜者的姿态展现在世人面前。不过,两次人机大战背后的技术力量截然不同。第一次人机大战,“深蓝”凭借的是超级计算机的运算速度,而第二次人机大战中,Alphgo依靠的却是模仿人脑的深度学习神经网络。 然而,有一个问题摆在我们面前,深蓝重达1270公斤,有32个CPU,而Alphago更是运行在一个庞大的服务器集群上,每下一盘棋的电费就高达3000元美金!
“星光智能一号”芯片
深度学习只是大型服务器集群的专属吗?小型化设备能否集成深度学习系统?中星微国家重点实验室给出的答案是:前端小型化设备也可以拥有人工智能。 中星微数字多媒体芯片技术国家重点实验室执行主任张韵东表示,神经网络处理器(NPU)针对CNN(卷积神经网络,Convolutional Neural Network)算法特性而设计的处理器内核,彻底颠覆了冯诺依曼架构而采用了“数据驱动”并行计算架构。 每个NPU处理器具有4个内核(NPU Core),每个内核有两个数据流处理器(Dataflow Processor), 每个数据流处理器具有8个长位宽或16个短位宽的SIMD(单指令多数据)运算单元。在一个时钟周期内,NPU处理器可同时完成64个长位宽MAC运算或者128个短位宽MAC运算。
每个NPU处理器具有38G Ops的长位宽处理能力或者76G Ops的短位宽处理能力。 NPU的处理性能可以通过组成多核阵列来提升,也可以通过多芯片级联的方式进一步扩展,以满足更复杂的CNN网络运算的性能需求。每个NPU处理器中同时还包含一个LW Processor(长字处理器),专门用于处理神经元网络中的超越函数等复杂计算。另外,每个NPU处理器还具有256KB Level-2 Cache,以及整块数据搬移(Block Data Access),片内数据共享(Data-sharing Between Processor Units),提升数据流的吞吐效率。并与软件配合利用了稀疏数据优化(Optimization for Sparse Data)等特性提高计算效率。NPU开发包提供可视化的数据流程图优化工具。NPU支持Caffe、TensorFlow等多种神经网络框架, 支持AlexNet、GoogleNet等各类神经网络。 张韵东介绍说,星光智能一号的诞生,将人工智能与大数据产业有机结合在一起,成千上万个视频监控设备所产生的数据,通过前端智能分析、后端深度挖掘,能够产生巨大的社会效益和经济价值。