论文

ISSCC 2017 Session 14 Slides整理(6/8)

论文六:A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector

机构:KAIST(韩国科学技术院)

简述:

一款面向Always-on 和IoT的0.62mW的人脸识别系统,面向IoT等极低功耗需求的计算场景。分为两个部分:人脸检测和人脸识别。人脸检测采用数模混合的哈尔特征人脸检测电路降低功耗,人脸识别使用卷积分离的近似计算技术提高能效。同时文中提出了支持水平、垂直数据读取的新结构T-SRAM用以支持分离近似计算,最终采用电压、频率可调的NVT实现了0.62mW的能耗表现,是目前最为精确的人脸识别SoC。

主要内容:

(P3)DNN的加速器,面向不同的应用有着不同的能效需求,也带来了不同的架构。但是在0.1w以下的空间,还有很多需要探索的地方。

1.png
DNN Research

(P4-)对于低功耗的在线人脸识别(Always-on Face Recognition,AoFR),已经成为新兴的交互方式,尤其在IoT网络中,基于卷积的FR有不到90%能效在10mw/frame以内,而对于人脸检测(Face Detection,FD)而言,其能效在0.1mw/frame以内。

2.png
Low-Power Face Recognition System

(P7)本文提出的混合人脸检测系统结构:通过模拟FD将非人脸的图像排除,进行图像的预处理;通过数字FD定位人脸,并传输到分类器。此处将模拟FD作为低功耗FD的触发器使用,满足Always-On的需求。

3.png

(P8)超低功耗的DNN通过:降低数据精度、图像分解在算法层优化;PE阵列优化、分布式存储在架构层优化;定制SRAM、近阈值电路在电路层优化。

(P9)分布式Memory:通过将数据分散,提升贷款,减少重用距离,增加架构的可扩展性。

4.png
Distributed Memory Architecture

(P10-11)本文工作的贡献:1、实现24uW AoFD,面向320×240的CIS系统需求,通过基于哈尔特征、数模混合实现低功耗FD;2、一款用于FR的0.6mW CNN芯片(通过卷积划分和近似计算降低卷积功耗,通过读取模式可变的SRAM降低访存功耗,通过电压、频率调节降低芯片功耗)。

总体架构分为两部分:面向CIS的AoFD+面向CNN的FR,如图:

5.png
Overall System Architecture

(P12-15)基于哈尔特征的滤波器实现,在数字和模拟两种方式对比下:数字体电路对长时计算更有优势,而模拟电路实现对于否定计算更有优势,分析如下:

(P16-17)本文所采用的数模混合Analog-Digital Hybrid FD结构:AHFC用于第一阶段处理,DHFU用于其余处理过程。60%的子图在AHFC中就被踢出,而对于混合FD结构,总体的能耗可以降低40%。

8
Proposed Analog-Digital Hybrid FD
9
Energy-efficiency in Hybrid FD

(P18-20)基于分离卷积的近似计算(Separable Filter Convolution, SF-CONV):通过将卷积的核心计算热点区域进行采样,减少运算量:SF-CONV的方式可以减少2x~3x的MAC操作,降低了操作功耗,同时对于准确度的影响非常低(降低1%以内)

(P21-22)对于SF-CONV的访存:垂直方向的图像滤波效率很低,同时增加了4.7x的热点因子。基于此,提出了T-SRAM。T-SRAM支持两种访问方式:V-WD和V-SA是倒序访存,输出的是垂直方向的1D向量;而H-WD和H-SA是顺序访存,输出的是水平方向的1D向量。

13
Memory Access in SF-CONV
14
Transpose-Read SRAM (T-SRAM)

(P23)基于T-SRAM的灵活访存方式,SF-CONV得到的是更高效的访存效率:通过H-和V-WD/SA的访存方式,满足了各种数据模态的计算需求。

15.png
SF-CONV w/ T-SRAM

(P24)T-SRAM的详细结构:7管的SRAM Cell结构,支持两种访存模式,比特和字节共享数据通路。对于不常用数据的占比,降低到4.2x。

16
Transpose-Read SRAM
17
Transpose-Read SRAM
18
Memory Access in SF-CONV w/ T-SRAM

(P27)芯片版图:65nm工艺下,FD部分的CIS处理单元为3.3mmx3.36mm(320×240的阵列,支持哈尔检测的芯片,采用模拟存储);FR部分的CNNP单元为4mmx4mm(4×4的PE阵列,使用T-SRAM作为本地存储)。

19.png
Chip Photograph

(P28)能效表现:两倍的能效提升(211mw@100MHz 0.8V;5.3mw@5MHz 0.46V)

20.png
NVT with Voltage & Frequency Scaling

(P29-30)系统实现及环境:SF-CONV的精度损失在1%以内,整体精确度达到97%(CNN网络,数据库为LFW)

(P31)芯片性能:目前最精确的人脸识别SoC,基于CNN有x1.2的准确度提升

23.png
Performance Comparison

(P32)总结:面向Always-on 和IoT的0.62mW的人脸识别系统

1、超级功耗的人脸识别SoC(采用CIS和CNN实现)

2、数模混合的哈尔特征人脸检测电路

3、卷积分离的近似计算技术

4、支持水平、垂直数据读取的新结构T-SRAM

5、采用电压、频率可调的NVT实现

1 thought on “ISSCC 2017 Session 14 Slides整理(6/8)”

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s