本文摘要:在2016年5月的I/O开发者大会上,谷歌首次展示了其用于机器学习的特殊芯片张量处理单元(TPU)。

贝博app下载

在2016年5月的I/O开发者大会上,谷歌首次展示了其用于机器学习的特殊芯片张量处理单元(TPU)。自那以后,谷歌除了发布围绕公司自身优化的TensorFlow机器学习框架之外,没有透露任何更好的细节。2020年3月30日,这款机器学习定制芯片的神秘再次被揭开。

4月5日,Google高级硬件工程师NormanJouppi在一篇文章中回应称,Google的专用机器学习芯片TPU的处理速度比GPU和CPU慢15-30倍(相比TPU、Intel HaswellCPU和NvidiaTeslaK80GPU),而TPU的能效提高了30-80倍。值得注意的是,这些数字是关于机器学习模型在生产中的使用,而不是第一次创建模型。

从这次公布的测试结果来看,TPU可能已经超出了业界的预期,但是这个芯片背后的内部架构的秘密是什么呢?我们可以从Jouppi之前发表的论文中找到答案。据了解,早在四年前,谷歌就开始使用消耗大量计算资源的深度自学习模式,这对CPU和GPU的人来说是一个巨大的挑战。谷歌知道,如果基于现有硬件,他们将被迫将数据中心的数量增加一倍,以反对这些简单的计算任务。

于是谷歌开始开发新的架构,Jouppi称之为“下一个平台”。Jouppi是MIPS处理器的主要设计师之一,他开创了存储系统的新技术。三年前他重新加入谷歌的时候,整个公司都在使用CPU和GPU混合架构进行深度自学培训。

Jouppi回应称,谷歌硬件工程团队使用FPGA解决了廉价、高效、高性能推理小说的问题,之后才改用定制的ASIC。但是,他认为FPGA性能和性能功耗比远远落后于ASIC。他解释说,“TPU可以像CPU或GPU一样可编程,它可以在不同的网络(卷积神经网络、LSTM模型和大规模几乎连通模型)上继续执行CISC指令,而不是为特殊的神经网络模型设计的。

总之,TPU有CPU和ASIC的优势,不仅可编程,而且比CPU、GPU、FPGA效率高、能耗低。TPU内部结构此图为TPU内部结构,除了外部DDR3内存,左侧为主机接口。

指令从主机发送到队列(无循环)。这些转录控制逻辑可以根据指令多次操作完全相同的指令。TPU不是一个简单的硬件,似乎雷达是应用于信号处理引擎,而不是标准的X86衍生架构。

Jouppi说,虽然它的矩阵乘法单元很多,但是它的GPU更擅长对浮点单元进行协处理。此外,必须注意,TPU没有任何存储的程序,可能需要从主机发送指令。

TPU的动态随机存取存储器作为一个单元段运行,因为必须提供更好的权重来馈送矩阵乘法单元(经计算,吞吐量超过64,000)。Jouppi没有提到它们是如何图形化地流式传输数据的,但他回应说,在主机软件加速器中使用时,这将成为一个瓶颈。256256阵列图形数据流引擎,经过矩阵乘法和累加后构建非线性输入。

从第二张图可以看出,TPU有两个存储单元和一个外部DDR3DRAM,用作模型中的参数。输入参数后,可以从顶部将其读入矩阵乘法单元。

同时,可以从左侧读取转录本(或从“神经元”输入)。以扩展方式转移到矩阵细胞中以产生矩阵乘法的那些在每个周期中可以扩展64000次。毫无疑问,谷歌可能使用了一些新的技能和技术来降低TPU的性能和效率。

例如用于高带宽存储器或混合3D存储器。但是Google的问题在于维护分布式硬件的一致性。

本文关键词:贝博app体育官网,贝博app下载,贝博app手机版

本文来源:贝博app体育官网-www.profilhom.com

相关文章