论文

ISSCC 2017 Session 14 Slides整理(1/8)

论文一:A 2.9 TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28nm for Intelligent Embedded Systems

机构:STMicroelectronics(意法半导体)

简述:

完整的SoC,用于DCNN加速。针对卷积设计DCNN卷积加速单元、针对ReLU、Pool、FC设计ISA可扩展的DSP簇,设计可重配置的DMA结构。芯片采用超宽电压的DVFS,最终能效达到2.9TOPS/W(运行AlexNet)

主要内容:

(P4)DCNN在视觉领域应用广泛,同时可能是智能IoT网络中实现边缘计算的关键

(P5-6)但是其网络复杂度(网络大小)和运算复杂度(网络计算次数)提升极快。Alex为例,参数达到了60M,网络计算操作超过832M次。

1

(P8)一个完整的、用于DCNN应用场景的SoC(下左图),应用于嵌入式系统中,面向以下需求:高能效、低成本;高效率层次化存储;对不同规模DCNN的适配;高I/O性能;内嵌深度学习工具

(P9)本文采用的DSP簇作为加速阵列(上右图),包含8个DSP簇,每簇内含2个32位的DSP,4通道16KB的I-Cache,64KB的本地RAM和64KB的共享RAM;在指标上:ST FD-SOI 28nm工艺下可以在1GHz频率下运行(6uW/Mhz@0.6v);提供面向DCNN的ISA扩展;采用2D-DMA。

(P10)采用层次化存储结构:4MB共享RAM(4x16x64KB),每个64KB的单元都可以单独控制是否启用。共享存储通过64位的bus进行数据传输。L2 Cache通过编程可控,用于存储特征图及参数(feature maps and parameters),每一层memory的能效对比如下图。

4

(P11)硬件加速子系统:8个卷积加速器+16个CDNN定制流数据DMA、支持数据流可重配置的计算、专用IP(H264/MJPEG/2图像修剪单元/边缘检测单元/4色度卷积/…)

5

(P13)AlexNet为例,运行中的软硬件划分:专用加速IP or 可编程DSP?卷积层中,一次卷积操作是36次MAC(Multiplication-Accumulation-Computation,乘累加)操作,这一部分在专用卷积IP计算。非卷积层,如ReLU/Pooling/FC等,在DSP上运行。划分如下图:

6

(P14)AlexNet为例,其存储占用:前五层(含卷积、ReLU、Pooling)片上SRAM中,参数以8bit位宽存储,占用2,318KB,特征图以16it存储,占用1,436KB。后三层(全连接层)参数、图存在片外RAM,约10M。

(P15)逻辑到物理的映射:特征图、计算核切片以batch为单位,进行迭代计算完成累加;batch基于硬件的计算资源进行特征和计算核的任务分配。

7

(P16-17)可重配置的计算框架:通过虚拟流链路进行数据传输,每个DMA独立运行。

10
virtual steam links

(P20)DCNN专用加速单元:核心计算部件为36个16×16的MAC计算单元+13输入的属性加法单元。通过ACCUM进行迭代以累加完成大尺寸卷积

11
DCNN Conv Accelerator

(P21-22)基于计算任务的特征,对DMA进行多种方式的配置(重构),完成不同模态下的计算。同时对参数进行压缩,采用8bit存储。

12
Exploit Parallelism and Locality

(P24-25)采用超宽电压阈的DVFS技术,降低功耗,提高能效比

13
Ultra-Wide DVFS Range

(P)芯片SPECS:28 nm工艺,工作电压0.575-1.1 v,功耗41 mw(硬件加速AlexNet的平均功耗),DSP阵列最高性能达75 GOPS。8个卷积加速核最高达到676 GOPS性能。

14
Chip SPECS

(P28)SoC在AlexNet上的卷积计算性能表现(DCNN加速单元性能)

15
AlexNet CA Performance

(P29)工作对比(3-5为寒武纪系列)

16

(P30-31)完整的AlexNet实现及Demo

17
AlexNet Complete Application
18
Demo Session

(P32)总结:极低功耗的DCNN加速SoC,用于嵌入式及IoT场景

1、基于数据流可重配置的硬件加速框架

2、面向DCNN中大型卷积运算加速的参数化硬件加速单元

3、针对不同方向进行数据等并行化发掘

4、DSP的ISA具有可扩展性

5、FD-SOI28工艺下的超宽电压阈DVFS实现

6、ALexNet峰值能效达2.9TOPS/W

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s