k8凯发首页 / 新闻
清微智能欧阳鹏:可重构架构提升神经网络处理能效
time:2019年7月8日 | author:清微智能
近日,2019 ai hardware summit(人工智能硬件峰会)在北京举行,阿里巴巴、百度、sambanova systems、graphcore等国内外创新企业携手亮相。人工智能硬件峰会是国际上第一个也是唯一一个专门探讨开发用于神经网络与计算机视觉的硬件加速器这一生态系统的行业峰会。清微智能cto欧阳鹏受邀出席并发表《embedding ai in every thing: reconfigurable architecture for energy efficient neural network processing》主题演讲。
以下是演讲记录,发布时经删减编辑。
ai芯片市场将迎来爆发
人工智能向各领域的渗透,让ai芯片市场迎来飞跃发展,tractica预测,ai市场的演变将推动深度学习芯片组的出货量从2018年的1.649亿增长到2025年的29亿单位以上。届时,深度学习芯片组的全球市场将达到663亿美元。
到2025年,专用集成电路(asic)将占总收入的最大份额,其次是图形处理单元(gpu)、中央处理器(cpu)、系统级芯片(soc)加速器和现场可编程门阵列(fpga)。在2023年左右,基于专用电路架构的ai芯片需求量,就将会超过采用cpu/gpu架构实现ai芯片的需求量。
ai芯片的广泛应用,对算力提升的要求日益迫切,工艺的提升和架构的改变能带来芯片性能的提升,但摩尔定律已渐渐失效,架构创新是新的方向。
可重构计算支持高效、灵活的芯片设计
云端和终端对芯片都有不同的需求,cpu、gpu在云端要执行不同的任务。在终端,手机、耳机、音箱都需要做不同的事情,需要在即高效又灵活的芯片设计。
传统人工智能芯片,主要基于cpu/dsp/gpu/npu架构,这些架构本质属于指令驱动的计算模式。在具体计算过程中,需要从指令存储器中加载指令并解析指令,然后指导执行单元进行计算。在每次的数据计算中,这样的过程都不可避免,因此这是一种灵活但是低效的时域计算模式。
asic方式固化电路结构,数据驱动下执行,计算效率非常高,但是没有灵活性。应用任务变化时,电路结构无法改变,无法执行新算法。
fpga计算架构基于查找表方式进行细粒度执行,属于硬件可编程,非常灵活。然而,大量细粒度lut(look-up-table)使得内部连线复杂。lut和互联线,会使得能耗增加,关键路径变长,同时,软件编译和用户开发变得困难。
要解决上述问题,我们需要考虑ai芯片的本质需求到底是什么?
主流神经网络算法具有混合数据精度表示的特点,即不同的神经网络层可用不同数据位宽来表达中间数据或者权重数据的精度,无法高效支持混合精度计算,或者只能通过扩展资源方式支持少数几种精度。
另外一方面,人工智能算法,除了神经网络中卷积层,全连接层等逻辑,还有非神经网络计算逻辑。传统ai芯片架构,强调了神经网络逻辑的计算效率,却忽视了非神经网络逻辑的计算效率。针对非神经网络逻辑,一般仍然采用cpu或者dsp进行处理,或者采用asic进行固化,计算效率或者灵活性会打折扣。
cgra计算架构通过空域硬件结构组织不同粒度和不同功能的计算资源,通过硬件的运行时配置,调整硬件功能,根据数据流的特点,让功能配置好的硬件资源互连形成相对固定的计算通路,从而以接近“专用电路”的方式进行数据驱动下的计算。当算法和应用变换时,再次通过配置,使硬件重构为不同的计算通路去执行。cgra最大的优势体现在两方面,一是没有传统指令驱动的计算架构中取指和译码操作的延时和能耗开销,二是在计算过程中以接近“专用电路”的方式执行。此外,cgra架构算力可以弹性扩展,适用于从云端到边缘端中对高能效和灵活性有综合要求的场景。
低功耗语音芯片tx210
基于十多年的技术积累,清微自成立以来快速地在今年量产了语音芯片tx210,该芯片采用tsmc40ulp工艺,支持wlcsp和qfn两种产品封装。
芯片采用多级功耗唤醒模式,极大的降低了芯片的功耗。
tx210芯片可编程可重构,结构上有着极强的灵活性,支持多比特dnn神经网络,可以支持1-16bit位宽的神经网络计算,也支持fft/mel filter等。
tx210还有一个显著特点就是用极小的芯片面积支持丰富的接口和电源管理。tx210的wlcsp封装面积仅有2.3x1.9mm2,适用于手机,蓝牙耳机等对体积要求苛刻的应用场景。采用算法 芯片的协同设计优化,tx210在典型信噪比下,唤醒识别率95%,误识别率小于24小时一次。
关于清微智能
清微智能是可重构智能芯片领导企业。核心技术团队来自清华大学微电所,这支兼具芯片、软件、算法和系统能力的业界顶级研发团队,从事芯片研发13年,是前沿芯片架构可重构技术的提出者和实践者。团队2014年获得教育部技术发明一等奖,2015年获得国家技术发明二等奖和中国专利金奖,2017 acm/ieee islped会议获得设计竞赛奖,2019年,dac低功耗目标检测系统设计挑战赛奖。