当前位置:首页 > TPU
  • 人工智能大风口下的TPU/NPU/CPU/GPU

    人工智能大风口下的TPU/NPU/CPU/GPU

      人工智能将推动新一轮计算革命,深度学习需要海量数据并行运算,传统计算架构无法支撑深度学习的大规模并行计算需求。因此,深度学习需要更适应此类算法的新的底层硬件来加速计算过程。   芯片也为响应人工智能和深度学习的需要,在速度和低能耗方面被提出了更高的要求,目前使用的 GPU、FPGA 均非人工智能定制芯片,天然存在局限性,除具有最明显的优势GPU外,也有不少典型人工智能专用芯片出现。   一、谷歌——TPU(Tensor Processing Unit)即谷歌的张量处理器   TPU是一款为机器学习而定制的芯片,经过了专门深度机器学习方面的训练,它有更高效能(每瓦计算能力)。大致上,相对于现在的处理器有7年的领先优势,宽容度更高,每秒在芯片中可以挤出更多的操作时间,使用更复杂和强大的机器学习模型,将之更快的部署,用户也会更加迅速地获得更智能的结果。   根据Google一位杰出硬件工程师Norm Jouppi在一篇部落格文章中的说法,该种加速器早在一年多前就运用于Google的数据中心:“TPU已经启动许多Google的应用,包括用以改善搜索引擎结果关联度的RankBrain,以及在街景服务(Street View)改善地图与导航的精确度与质量。”   谷歌专门为人工智能研发的TPU被疑将对GPU构成威胁。不过谷歌表示,其研发的TPU不会直接与英特尔或NVIDIA进行竞争。   二、中星微——中国首款嵌入式神经网络处理器(NPU)芯片   中星微在今年6月 20 日,率先推出中国首款嵌入式神经网络处理器(NPU)芯片,这是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片,并取名“星光智能一号”。这款基于深度学习的芯片运用在人脸识别上,最高能达到98%的准确率,超过人眼的识别率。该芯片于今年3月6日实现量产,目前出货量为十几万件。   NPU采用了“数据驱动”并行计算的架构,单颗NPU(28nm)能耗仅为400mW,极大地提升了计算能力与功耗的比例,可以广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。   三、英特尔——非传统意义上的英特尔处理器(CPU)   英特尔公司开发的第二代Xeon Phi处理器完美契合了人工智能的需求。Xeon Phi并非传统意义上的英特尔处理器(CPU),最新的Xeon Phi协处理器拥有多达72个内核,而且每个内核有两个用于提供更好的单核浮点运算性能的英特尔AVX-512 SIMD处理单元,所以这些处理器非常适合运行机器学习/深度学习工作任务。   四、人工智能风口下最受关注的还是要数GPU   GPU 因其并行计算优势最先被引入深度学习,全球可编程图形处理技术的领军企业英伟达借此已开始打造新的计算平台。目前,包括谷歌、Facebook、微软等科技巨头公司在内的人工智能领域研究的领先者,已经在使用英伟达所提供的专门应用于该领域研究的芯片产品。   Facebook的人工智能硬件平台Big Sur就是依托Nvidia的GPU而打造的。GPU在人工智能中的应用十分广泛,因为这种芯片上搭载的处理核心数量多于Intel生产的传统处理器,使得它们十分适用于AI软件所需要的海量计算。“Big Sur”的设计特点是易于维修的主板,它装有8个NVIDIA的Tesla M40。   (1)GPU对于人工智能领域的意义又是什么呢?英伟达(NVIDIA)制造的图形处理器(GPU)专门用于在个人电脑、工作站、游戏机和一些移动设备上进行图像运算工作,是显示卡的“心脏”。该公司正从一家显卡供应商转变为人工智能服务器供应商。   GPU在“深度学习”领域发挥着巨大的作用,因为GPU可以平行处理大量琐碎信息。深度学习所依赖的是神经系统网络——与人类大脑神经高度相似的网络——而这种网络出现的目的,就是要在高速的状态下分析海量的数据。例如,如果你想要教会这种网络如何识别出猫的模样,你就要给它提供无数多的猫的图片。而GPU擅长的正是海量数据的快速处理。   对于人工智能和深度学习来说,目前硬件加速主要靠使用图形处理单元(GPU)集群作为通用计算图形处理单元(GPGPU)。   与传统的通用处理器(GPP)相比,GPU的核心计算能力要多出几个数量级,也更容易进行并行计算。尤其是英伟达的CUDA,作为最主流的GPGPU编写平台,各个主要的深度学习工具均用其来进行GPU 加速。   (2)GPU有什么优势呢?GPU最明显的优势是更快的处理速度,相比于CPU,GPU的一大优势是高速度。国内最好的人工智能硬件研究项目“寒武纪”小组的最新研究结果表明,GPU能够提供平均 58.82X 倍于CPU的速度。GPU的另一大优势,是它对能源的需求远远低于CPU。   最新款的专门用于人工智能研究领域的Tesla P100图形处理芯片,号称公司为这款GPU的研发投入了20亿美元。它可以执行深度学习神经网络任务,速度是英伟达之前高端系统的12倍,预计新产品将会极大推动机器学习的极限。   黄仁勋在4月初的发布会上表示,未来10年,人工智能市场总值约为5000亿美元。他表示,深度学习令我们的业绩加速增长。这是一种全新的计算模式,利用GPU的大规模处理能力来学习人工智能算法。它的普及正在席卷一个又一个行业,推动我们的图形处理器市场需求不断增长。

    时间:2020-08-25 关键词: CPU GPU tpu 人工智能

  • 人工智能的发展将影响英伟达、英特尔厂商命运

      据国外媒体报道,目前,谷歌、Facebook、微软、亚马逊和百度等互联网巨头在探索多种能推动人工智能发展的芯片技术,它们的选择将改变英特尔、英伟达等芯片厂商的命运。但目前,即使这些互联网巨头的计算机科学家,也不清楚未来的发展方向。   互联网巨头依赖安装有数以千计服务器的数据中心对外提供服务,每台服务器的引擎都是CPU(中央处理器)。但是,随着采用一种被称作深度神经网络的人工智能技术,这些公司开始采用CPU之外的其他类型处理器。通过分析海量数据,神经网络能学会完成包括从识别照片中人脸和物体到语言翻译在内的任务,它们需要CPU之外的其他类型处理器。   因此谷歌开发了Tensor Processing Unit(以下简称“TPU”),微软采用被称作现场可编程门阵列(以下简称“FPGA”)的处理器,其他公司则采用图形处理器(以下简称“GPU”)。它们都在考虑新型芯片,加速智能手机和其他设备的人工智能任务。   这些公司的选择很重要,因为它们的网络业务规模十分庞大。它们采购和运营的计算机硬件数量超过其他任何公司,随着云计算重要性不断提升,它们的领先优势还会继续扩大。如果谷歌选择一种处理器而非其他处理器,它可能从根本上改变芯片产业格局。   TPU对英特尔和英伟达等公司构成了威胁,因为谷歌自己生产这款芯片。但GPU在谷歌及其同门兄弟中也扮演了一个非常重要的角色,而英伟达是这些GPU芯片的制造商。英特尔通过收购Altera也加入了这一阵营。167亿美元收购Altera,是英特尔有史以来规模最大的收购交易,也反映了芯片市场的巨变。   但是,使用一种类型处理器满足互联网巨头需求是相当困难的,因为神经网络的运行分为两个阶段。第一个阶段是训练阶段,谷歌等公司训练神经网络完成一类具体任务,例如识别照片中的人脸或翻译语言;第二个阶段是执行阶段,也就是普通用户使用神经网络的阶段,例如,用户在Facebook上发布中学同学聚会的照片,它就会自动标注照片中的每个人。这两个阶段有很大不同之处,对处理器有不同要求。   目前,GPU是训练阶段最好的选项。芯片厂商设计GPU的目的是为游戏和其他对图形处理能力有颇高要求的应用渲染图形,但最近数年,谷歌等公司发现,这类芯片提供了训练神经网络的高效途径,这意味着它们能利用更少硬件训练更多神经网络。微软人工智能研究人员XD Huang把GPU称作“真正的武器”。最近,他的团队完成了一个系统,可以像人那样识别语言,他们对该系统训练了约1年时间。如果不使用GPU,训练这一系统需要5年时间。   但企业也需要能迅速执行神经网络的芯片——这一过程被称作推理。谷歌专门为此开发了TPU,微软使用了FPGA,百度使用GPU,这些芯片应用在推理中的表现不会像在训练中那样好,但只要佐以合适的软件,它们也可以完成推理任务。   与此同时,其他公司在开发适合在智能手机和其他设备上执行神经网络的芯片。IBM就在开发这样的芯片,虽然部分业内人士对这类芯片的有效性提出了质疑。英特尔与Movidius达成了收购协议,后者已经在设备中使用这类芯片。   英特尔意识到了市场的变化。4年前,英特尔称它向谷歌销售的服务器芯片多于其他4家公司,因此它明白谷歌及其同门兄弟对市场的影响。英特尔四处收购技术,除Altera和Movidius外,它还收购了被称作Nervana的第三家芯片公司。   英特尔这样做是有意义的,因为市场才刚刚开始发展。英特尔副总裁詹森·韦克斯曼(Jason Waxman)最近表示,“我们目前处于下一波高速增长的边缘,推动下一波高速增长的是人工智能。”

    时间:2020-08-21 关键词: FPGA GPU tpu 人工智能

  • 智能芯片市场格局一变再变 TPU将成深度学习的未来?

    智能芯片市场格局一变再变 TPU将成深度学习的未来?

    在Google I/O 2016的主题演讲进入尾声时,谷歌的CEO皮采提到了一项他们这段时间在AI和机器学习上取得的成果,一款叫做Tensor Processing Unit(张量处理单元)的处理器,简称TPU。在这个月看来,第一代的TPU处理器已经过时。 在昨天凌晨举行的谷歌I/O 2017大会上,谷歌除了宣传了安卓8.0之外,更为重要的是着重谈到了人工智能,于是第二代TPU也就应运而生。TPU是谷歌自主研发的一种转为AI运算服务的高性能处理器,其第一代产品已经在AlphaGo这样的人工智能当中使用,主攻运算性能。 第二代TPU相比较于初代主要是加深了人工智能在学习和推理方面的能力,至于性能的话,全新的谷歌TPU可以达到180 TFLOPs的浮点性能,和传统的GPU相比提升15倍,更是CPU浮点性能的30倍。 另外谷歌还推出了一款叫做TPU pod的运算阵列,最多可以包含64颗二代TPU,也就是说浮点性能可以达到惊人的11.5 PFLOPS。 从名字上我们可以看出,TPU的灵感来源于Google开源深度学习框架Tensor Flow,所以目前TPU还是只在Google内部使用的一种芯片。 TPU 诞生 2011年,Google 意识到他们遇到了问题。他们开始认真考虑使用深度学习网络了,这些网络运算需求高,令他们的计算资源变得紧张。Google 做了一笔计算,如果每位用户每天使用3分钟他们提供的基于深度学习语音识别模型的语音搜索服务,他们就必须把现有的数据中心扩大两倍。他们需要更强大、更高效的处理芯片。 他们需要什么样的芯片呢?中央处理器(CPU)能够非常高效地处理各种计算任务。但 CPU 的局限是一次只能处理相对来说很少量的任务。另一方面,图像处理单元(GPU)在执行单个任务时效率较低,而且所能处理的任务范围更小。不过,GPU 的强大之处在于它们能够同时执行许多任务。例如,如果你需要乘3个浮点数,CPU 会强过 GPU;但如果你需要做100万次3个浮点数的乘法,那么 GPU 会碾压 CPU。 GPU 是理想的深度学习芯片,因为复杂的深度学习网络需要同时进行数百万次计算。Google 使用 Nvidia GPU,但这还不够,他们想要更快的速度。他们需要更高效的芯片。单个 GPU 耗能不会很大,但是如果 Google 的数百万台服务器日夜不停地运行,那么耗能会变成一个严重问题。 谷歌决定自己造更高效的芯片。 2016年5月,谷歌在I/O大会上首次公布了TPU(张量处理单元),并且称这款芯片已经在谷歌数据中心使用了一年之久,李世石大战 AlphaGo 时,TPU 也在应用之中,并且谷歌将 TPU 称之为 AlphaGo 击败李世石的“秘密武器”。 第一代TPU内部架构 该图显示了TPU上的内部结构,除了外挂的DDR3内存,左侧是主机界面。指令从主机发送到队列中(没有循环)。这些激活控制逻辑可以根据指令多次运行相同的指令。 TPU并非一款复杂的硬件,它看起来像是雷达应用的信号处理引擎,而不是标准的X86衍生架构。Jouppi说,尽管它有众多的矩阵乘法单元,但是它GPU更精于浮点单元的协处理。另外,需要注意的是,TPU没有任何存储的程序,它可以直接从主机发送指令。 TPU上的DRAM作为一个单元并行运行,因为需要获取更多的权重以馈送到矩阵乘法单元(算下来,吞吐量达到了64,000)。Jouppi并没有提到是他们是如何缩放(systolic)数据流的,但他表示,使用主机软件加速器都将成为瓶颈。 256&TImes;256阵列缩放数据流引擎,经过矩阵乘法积累后实现非线性输出 从第二张图片可以看出,TPU有两个内存单元,以及一个用于模型中参数的外部DDR3 DRAM。参数进来后,可从顶部加载到矩阵乘法单元中。同时,可以从左边加载激活(或从“神经元”输出)。那些以收缩的方式进入矩阵单元以产生矩阵乘法,它可以在每个周期中进行64,000次累加。 毋庸置疑,谷歌可能使用了一些新的技巧和技术来加快TPU的性能和效率。例如,使用高带宽内存或混合3D内存。然而,谷歌的问题在于保持分布式硬件的一致性。 能够进行数据推理的第二代TPU 第一代的TPU只能用于深度学习的第一阶段,而新版则能让神经网络对数据做出推论。谷歌大脑研究团队主管Jeff Dean表示:“我预计我们将更多的使用这些TPU来进行人工智能培训,让我们的实验周期变得更加快速。” “在设计第一代TPU产品的时候,我们已经建立了一个相对完善和出色的研发团队进行芯片的设计研发,这些研发人员也基本上都参与到了第二代TPU的研发工程中去。从研发的角度来看,第二代TPU相对于第一代来说,主要是从整体系统的角度,提升单芯片的性能,这比从无到有的设计第一代TPU芯片来说要简单许多。所以我们才能有更多的精力去思考如何提升芯片的性能,如何将芯片更好的整合到系统中去,使芯片发挥更大的作用。”Dean在演讲中表示。 未来,我们将继续跟进谷歌的进度,以进一步了解这一网络架构。但是在此之前,我们应当了解新一代TPU的架构、性能以及工作方式,明白TPU是如何进行超高性能计算的。在此次发布会上,谷歌并没有展示新一代TPU的芯片样片或者是更加详细的技术规格,但是我们依旧能够从目前所知的信息中对新一代TPU做出一些推测。 从此次公布的TPU图片来看,第二代TPU看上去有点像Cray XT或者是XC开发板。从图片上,我们不难发现,相互连接的几个芯片被焊接到了开发板上,同时保持了芯片之间以及芯片与外部的连接功能。整个板子上共有四个TPU芯片,正如我们之前所说,每一个单独的芯片都可以达到180TFLOPs的浮点性能。 在开发板的左右两侧各有四个对外的接口,但是在板子的左侧额外增加了两个接口,这一形式使得整个板子看上去略显突兀。如果未来每一个TPU芯片都能够直接连接到存储器上,就如同AMD即将推出的“Vega”处理器可以直接连接GPU一样,这一布局就显得非常有趣。左侧多出的这两个接口在未来可以允许TPU芯片直接连接存储器,或者是直接连接到上行的高速网络上以进行更加复杂的运算。 以上这些都是我们基于图片的猜测,除非谷歌能够透露更多的芯片信息。每一个TPU芯片都有两个接口可以与外部的设备进行连接,左侧有两个额外的接口对外开发,可以允许开发者在此基础上设计更多的功能,添加更多的扩展,无论是连接本地存储设备还是连接网络,这些功能在理论上都是可行的。(实现这些功能,谷歌只需要在这些接口之间建立相对松散可行的内存共享协议即可。) 下图展示了多个TPU板一种可能的连接形式,谷歌表示,这一模型可以实现高达11.5千万亿次的机器学习计算能力。 这一结果是如何得出的呢。上面这种连接方式,从外形上来看,非常像开放的计算机架构,或者是其他的一些东西。纵向上来看,叠加了8个TPU板,横向上看,并列了4个TPU板。目前我们无法断定每一个开发板都是完整的TPU板或者是半个开发板,我们只能看到板子的一侧有6个接口,另一侧有2个接口。 值得注意的是,板子的中间采用了4个接口,而左右两侧采用了2个接口,并且在左右两侧也没有见到与TPU开发板类似的外壳。对此,一个比较合理的解释就是,左右两侧连接的是本地存储器接口,而不是TPU芯片接口。 即便如此,我们依旧能看到至少32个TPU二代母板在运行,这也意味着,有128个TPU芯片在同时运行。经过粗略的计算,整套系统的计算能力大概在11.5千万亿次。 举个例子来说,如果这一运算能力在未来能够运用到商业领域,谷歌现在进行的大规模翻译工作所采用的32个目前最先进的GPU,在未来就可以缩减为4个TPU板,并能够极大的缩减翻译所需要的时间。 值得注意的是,上文所提到的TPU芯片不仅仅适用于浮点运算,也同样适用于高性能计算。 TPU的训练与学习 与第一代TPU相比,第二代TPU除了提高了计算能力之外,增加的最大的功能就是数据推理能力,不过这一推理模型必须先在GPU上进行训练才可以。这一训练模式使得谷歌等开发厂商必须降低实验的速度,重塑训练模型,这将耗费更长的时间,才能使机器获得一定的数据推理能力。 正是因为如此,在相对简单和单一的设备上先进行训练,然后将结果带入带更为复杂的环境中去,从而获得更高层次的数据推理能力,这一迭代工程是必不可少的。未来,英特尔推出的用于人工智能的GPU也将会采用这一迭代模式。英伟达的Volta GPU也是如此。 拥有“tensor core”的英伟达Volta GPU拥有超高速的机器学习与训练能力,未来可能达到120万亿次的单设备计算能力,这一运算能力与去年上市的Pascal GPU相比,在计算能力上提升了大约40%。但是像谷歌推出的TPU这种超高速的计算能力所带来的影响,我们即便很难在生活中切身的体会到,但是GPU越来越快的计算能力依旧令人印象深刻,也离我们更近。 Dean表示,英伟达Volta所采用的架构是非常有趣的,这一架构使得通过核心矩阵来加速应用的目的成为可能。从一定程度上来说,谷歌推出的第一代TPU也采用了类似的想法,实际上,这些技术现在依然在机器学习的流程中被采用。“能够加快线性计算能力总是非常有用的。”Dean强调。 姑且不考虑硬件方面的影响,依然存在着许多能够吸引用户的地方。与那些始终保持机密的项目不同,未来,谷歌将会将TPU技术运用到谷歌云平台。谷歌的高级研究员Jeff Dean表示,他们不希望通过各种手段来限制竞争,希望能够为TPU提供更多的可能与空间,这样在未来才能够与Volta GPU以及Skylake Xeons竞争。 Dean认为,平台也应当为开发者提供更多能够建立和执行各自特有模型的机会,而不是限制开发者的思维。未来,谷歌将会在云平台上为那些对开放的科研项目感兴趣并不断推进机器学习的研究团队提供超过1000个TPU。 Dean表示,现在在谷歌内部,在进行机器训练和学习的时候,也会同时采用GPU和CPU,在同一设备上也是如此,这样能够更好的保证平衡。但是对于新一代的TPU芯片,目前来说,训练和学习时候的功率还不能够准确的估计,但是值得肯定的是,功能肯定是低于Volta GPU。由于系统在功能上能够满足高性能计算和64位高性能计算,这就使得工作负载的计算异常复杂。英伟达的GPU在使用过程中也会遇到类似的问题。未来,想要更好的解决这一问题,需要我们跟工程师继续努力。 在这一点上,Dean也承认:“与第一代TPU芯片整数计算的方式不同,第二代芯片能够进行浮点运算。所以在芯片进行学习训练的过程中,只需要采用固定的模型即可,不需要变动算法。工程师可以采用相同的浮点运算方式,这在很大程度上降低了工作量。” 除了英伟达和英特尔之外,谷歌将其定制的硬件产品推向市场,对于企业来说未尝不是一件好事。因为TPU来说对于市场来说还是相当边缘化的技术。当第二代TPU产品应用到谷歌云平台之后,谷歌将会向大量的用户推送培训,这将会更好的推动这一技术的发展。 对于哪些对于谷歌为什么不将芯片进行商业化的人来说,以上的内容大概能够给出一个回答。随着人工智能和神经学习技术的不断发展,TPU将能够在谷歌云上大展拳脚,成为推动技术进步的一大力量。 TPU对谷歌意味着什么? 谷歌专门开发的应用于深度神经网络的软件引擎。谷歌表示,按照摩尔定律的增长速度,现在的TPU的计算能力相当于未来七年才能达到的计算水平,每瓦能为机器学习提供更高的量级指令,这意味它可以用更少的晶体进行每一个操作,也就是在一秒内进行更多的操作。并且谷歌将其与Deep learning系统平台TensorFlow进行了深度绑定,可以获得更好的支持,做更强的生态,包括搜索、无人驾驶汽车、智能语音等100多个需要使用机器学习技术的项目。 TPU 是深度学习的未来吗? 深度学习计算中的芯片部署都不是零和博弈。现实世界的深度学习网络需要系统的 GPU 与其他 GPU 或诸如 Google TPU 之类的 ASIC 通信。GPU 是理想的工作环境,具有深度学习所需的灵活性。但是,当完全专用于某个软件库或平台时,则 ASIC 是最理想的。 谷歌的 TPU 显然符合这样的要求。TPU 的卓越性能使得 TensorFlow 和 TPU 很可能是一起升级的。虽然谷歌官方已经多次明确表示,他们不会对外销售 TPU。不过,利用 Google 云服务做机器学习解决方案的第三方可以得益于 TPU 卓越性能的优势。 智能芯片市场格局一变再变,谷歌 TPU 的出现让面向神经网络/深度学习特定领域加速的芯片趋势更加明显。高端 AI 应用需要强大的芯片做支撑。软硬件缺了哪一块中国的智能生态也发展不起来。中国处理器学术和工程都在不断提高,我们期待中国芯早日出现在世界舞台与国际同行竞技。

    时间:2020-08-11 关键词: 智能芯片 tpu

  • 谷歌出手AI芯片和公有云市场 TPU首次对外全面开放

    谷歌出手AI芯片和公有云市场 TPU首次对外全面开放

    今日报道,谷歌向外宣布TPU将启动全面开放模式,据悉这是谷歌TPU首次对外全面开放。TPU的威力极大,它的出现必将给AI芯片和公有云市场将迎来新的变局。Google的机器学习利器Cloud TPU,在今日真的开始面向更多用户开放了。 谷歌又出手了。又是一个大招。 这次谷歌传奇Jeff Dean亲自在推特上连发10条,满怀激动地对外宣布着这个消息:谷歌TPU首次对外全面开放。 AI芯片和公有云市场将迎来新的变局。 之前英伟达的黄仁勋在谈到谷歌TPU时,就曾强硬的表示,对TPU的威胁不以为然。当时,老黄还列了列参数:新的TPU可以实现45 teraflop的运算能力,而英伟达最新的Volta GPU则能达到120 teraflop。 但如果你关注人工智能,肯定知道TPU的威力。谷歌搜索、翻译、相册等应用,都有TPU在提供AI加速。更值得一提的是,AlphaGo也是借力TPU,称霸围棋界。 而且谷歌这款芯片还专门对AI进行了优化。 谷歌在官方博客中表示,在新发布的Cloud TPU帮助下,不到一天的时间,你就可以在ImageNet上把ResNet-50模型训练到75%的精度,成本不足200美元。 从现在起,每小时6.5美元,你也能用上谷歌TPU了。 理论上。 Google的机器学习利器Cloud TPU,从今天开始面向更多用户开放了。 Cloud TPU今天发布了beta版,这一版本通过谷歌云平台(Google Cloud Platform, GCP)提供,想帮更多机器学习专家更快地运行模型。 Cloud TPU是谷歌设计的硬件加速器,专为加速、扩展特定的TensorFlow机器学习工作负载而优化。 每个Cloud TPU包含4个定制化的ASIC,单块板卡的计算能力达到每秒180万亿次浮点运算(180 teraflops),有64GB的高带宽内存。 这些板卡可以单独使用,也可以通过超高速专用网络连接起来,形成“TPU pod”。今年晚些时候,Google会开始通过GCP供应这种更大的超级计算机。 Google设计Cloud TPU的目标,是针对性地为TensorFlow工作负载提供一分钱一分货的差异化性能,让研究人员嫩更快地进行迭代。 例如: 你能通过自定义、可控制的Google Compute Engine虚拟机,对联网的Cloud TPU进行交互式的、独享的访问,而不用等待自己的工作在共享计算集群上排队。 你能连夜在一组Cloud TPU上训练出同一个模型的几个变体,第二天将训练出来的最精确的模型部署到生产中,而不用等几天、甚至几周来训练关键业务机器学习模型。 不到一天的时间,你就可以在ImageNet上把ResNet-50模型训练到75%的精度,成本不到200美元。 更简单的机器学习模型训练 过去,为定制ASIC和超级计算机编程需要深入的专业知识技能。相比之下,要对Cloud TPU编程,用高级TensorFlow API就可以了,Google还开源了一组高性能的云TPU模型实现,上手更简单: Google在博客中说,经过对性能和收敛性的不断测试,这些模型都达到了标准数据集的预期精度。 以后,Google会逐渐推出更多模型实现。不过,想要探险的机器学习专家也可以用他们提供的文档和工具,自行在Cloud TPU上优化其他TensorFlow模型。 现在开始用Cloud TPU,等到今年晚些时候Google推出TPU pod的时候,训练的时间-精度比能得到惊人的提升。 在NIPS 2017上,Google曾宣布ResNet-50和Transformer两个模型在完整TPU pod上的训练时间,都从大半天下降到了30分钟以内,不需要改动任何代码。 可扩展的机器学习平台 云TPU还简化了机器学习计算资源的规划和管理: 你可以为团队提供最先进的机器学习加速,并根据需求的变化动态调整生产力。 你可以直接用经过Google多年优化的高度集成机器学习基础设施,无需投入大量金钱、时间、专业人才来设计、安装、维护现场机器学习计算集群,不用考虑供电、冷却、联网、存储要求等问题。 Google Cloud TPU经过预先配置,不需要安装驱动程序,因此,也不用想方设法让一大群工作站和服务器的驱动程序保持最新。 和其他Google云服务一样,有复杂的安全机制保护着你的数据。 Google说要为客户的每个机器学习负载提供最适合的云服务,除了TPU之外,他们还提供英特尔Skylake等高性能CPU,和包括英伟达Tesla V100在内的高端GPU。 开始使用吧 Cloud TPU今天开始提供,数量有限,按秒计费。每个Cloud TPU每小时6.5美元。 要使用beta版的Cloud TPU,需要填个表,描述一下你要用TPU干什么。 Google说,会尽快让你用上Cloud TPU。 2月27日,Google还要开一场在线讲座,再细致地谈一谈Cloud TPU。 在Google的博客文章中,提到了两家客户使用Cloud TPU的感受。 一家是投资公司Two Sigma。他们的深度学习研究现在主要在云上进行,该公司CTO Alfred Spector说:“将TensorFlow工作负载转移到TPU上,大大降低了编程新模型的复杂性,缩短了训练时间。” 另一家是共享出行公司Lyft。深度学习正在成为这家公司无人车研究的重要组成部分。

    时间:2020-07-27 关键词: 谷歌 ai芯片 公有云 tpu

  • 谷歌疯狂速度推进AI革命,让人们在深度学习系统中实现民主化

    谷歌疯狂速度推进AI革命,让人们在深度学习系统中实现民主化

    最近几年,深度学习已经成为越来越热门的技术,但很少有公司能像谷歌及其母公司Alphabet那样,利用深度学习技术在如此多的领域取得巨大进展,并将其完全融入到操作业务中去。为了与谷歌推动其创新的努力保持一致,该公司在云计算大会NEXT 2017上发布了一系列与人工智能(AI)相关的公告,同时以“让人们能够在世界上最强大的深度学习系统中实现民主化”为主题。 近年来,谷歌及其姊妹公司已经成为“以疯狂速度推进AI革命”的代名词,并在整个公司的服务中引入深度学习。其中最著名的例子是,Alphabet子公司Deep Mind的AI程序AlphaGo成为了第一个击败顶级围棋选手的机器,而Waymo的无人驾驶汽车也已经成为自动驾驶革命的象征。但是,这是一场静悄悄的AI革命,它塑造了从谷歌翻译到谷歌搜索的所有东西,对谷歌本身产生了最大的影响。同时,它还带来了自动推理的力量,几乎可以影响到公司所做的每一件事情。 由于谷歌已经建立起庞大的基础设施来训练和运行这些AI系统,谷歌现在正将这些工具带给大众。有些公司已经建立了自己的AI研究部门,需要为特定的应用程序建立高度定制的模型。然而,在这样做的过程中,他们很快就遭遇了构建大型深度学习模式的艰巨硬件要求,通常需要整个加速器农场进行快速的迭代。 在谷歌的案例中,它提供了一个名为“云机器学习引擎(Cloud Machine Learning Engine)”的深度学习托管平台,负责提供深度学习开发所需的硬件,让企业可以专注于构建自己的模型,并将计算需求转移到谷歌。毕竟,很少有公司在AI领域投入如此多的资金以建立自己的自定义加速器硬件,就像谷歌的张量处理单元(TPU)那样。 当然,尽管算法和硬件的进步在AI革命中发挥了重要作用,但在没有数据的情况下,很难在这一领域取得真正的进展。目前的AI系统需要海量的数据来学习一个新概念。人类可以看到一个新物体的单一图像,并能立即识别出它,但类似的AI系统需要大量的图像从多个角度描绘这个物体,从而建立正确的内部图像。这意味着,像谷歌这样的公司能够收集到数亿张照片,从而为地理位置等应用程序构建一个可视化的地球图像,这是一个巨大的优势。 简而言之,深度学习革命是由数据驱动的,但很少有公司能像谷歌那样拥有如此多的数据。这意味着,当涉及到深度学习系统时,你很容易找到工具,但很难找到你真正可以使用的预先训练过的模型。我本人曾希望找到足够强大的系统以便对全球新闻图片进行分类。在过去的几年里,我尝试了无数的系统,我发现许多系统提供了令人不可思议的技术,但是没有任何系统能够提供丰富的预先构建的目录,它们没有成千上万的标签,也未能很好地利用来自非西方世界的图像,直到我偶然发现了谷歌的 Cloud Vision系统。 事实上,这是许多公司的共同需求:他们有兴趣为客户建立服务,而不是进行AI研究。随着外部化趋势的发展,谷歌已经通过发布许多内部AI系统作为公共云的API来应对这样的挑战。Cloud Vision接受任意图片,并对物体、活动以及文本分类。它能识别图片中所描述的位置、估算人脸的情感,甚至还会标记图片中是否描绘了暴力。所有这些都有API调用,结果会在几秒钟内反回馈来,而且可无限扩展。 Cloud Speech可用80多种语言进行现场演讲,不像传统的语音转录系统,它不需要任何训练。Cloud Natural Language接受英语、西班牙语和日语中的任意文本,并输出独立的解析树,识别关键实体,甚至执行情绪分析。在NEXT 2017大会上,谷歌以其最新的工具 Cloud Video Intelligence扩展了这个阵容,它将视频和短片分割成场景,并在每个场景中识别出主要的主题和活动,让人们可以获取一个庞大的视频档案,并即时编辑索引,使其可以被按照题目尽心搜索。 这些API之所以如此强大,是因为它们是作为简单的API而被公开的。你只需用你的数据做一个API调用,几秒钟后就能得到世界上顶尖AI研究人员建立的、经过预先训练过的算法给出的结果。深度学习的巨大复杂性隐藏在一个简单的API调用背后,你甚至可以将API调用串在一起,用几行代码构建难以想象的复杂工作流程。 Teowaki的贾维尔拉米雷斯(Javier Ramirez)让我们得以窥视,如何利用这些API快速构建一个完整的工作流程,只需几分钟的时间和几行代码。在他的教程中,他以英国首相特里萨梅(Theresa May)就职演讲的YouTube视频为例,并通过Cloud Speech API为其提供了一个高质量的文本文字记录。然后,他通过Cloud Natural Language来获取这些文本,以提取其中提到的重要实体(以及维基百科页面上的链接以获取更多信息),并计算出演讲的一般情绪。 只需要几行代码就可以制作几个API调用,然后用YouTube上的视频转录,并提取关键实体和情感。更令人惊讶的是,整个工作流程都可以被放大,可以在数百万个视频中运行,而无需进行任何改动。这就是云计算的力量。 就在谷歌将其服务和安全模式具体化的同时,它也为其不可思议的AI技术进步打开了大门,并为想要打造自己模型的公司提供了AI托管环境,以及不断增加的预先训练模型,这些模型允许公司通过简单的API调用来构建复杂的应用程序。 在NEXT 2017大会的几次会议中,可以清楚地看到,AI以及其在主题演讲中的大量存在表明,谷歌押注于将AI投入到企业中。最后,谷歌实际上是通过让用户容易使用来实现对世界上最先进AI算法的访问,以至于即使是最小的企业也可以利用深度学习的全部力量来彻底改变他们做生意的方式。

    时间:2020-07-19 关键词: 谷歌 AI 深度学习 tpu

  • 第二代Tensor处理单元TPU 用AI帮你看世界!

    第二代Tensor处理单元TPU 用AI帮你看世界!

      Google这是要上天啊!   之前发布的Google Lens可以用AI帮你看世界:用镜头扫一扫路边的野花,马上告诉你这是什么品种。   扫一扫路由器条形码,就能自动连上WIFI:   扫一扫路边的餐厅,立马跳出该餐厅的评分信息等:   还能去掉照片中乱七八糟的东西,秒杀修图软件:   对了,它还可以和谷歌翻译结合,扫一扫立马切换语言:   狂甩苹果Siri几条街的节奏啊!   发布会下来,很多用户被Google Assistant的智能程度吓到了。   这些强大的人工智能靠的是强大的第二代Tensor处理单元TPU。它能有效地将Google服务器变为具有11.5千万亿次浮点计算能力的超级计算机。   第二代TPU被称作“CloudTPU”,将通过谷歌云平台向所有人开放。谷歌云平台的开发者仍可以使用传统芯片去进行设计,如英伟达VoltaGPU或者英特尔Skylake等。这是一个云计算硬件和软件系统,主要是为了提高机器学习计算处理所需要的大量负载,包括训练和推理。   TPU为专用的逻辑电路,单一工作,速度快,但由于其实ASIC,所以成本高。第一代TPU带来了突破性进步,但并不是会完全淘汰CPU和GPU,主要是用来解决集成电路存在的成本高、耐用性差的问题。   而而第二代TPU设备,可提供高达每秒180万亿次浮点运算的性能。CloudTPU的最大好处,则是谷歌的开源机器学习框架TensorFlow。开发人员和研究者使用高级API变成这些TPU,可以更轻松地在CPU、GPU或CloudTPU上训练机器学习模型,而且只需很少的代码更改。Google还为每个TPU设计了一个定制的高速网络,可以组合构建一个名为“CloudTPUpod”的机器学习超级计算机。每一个CloudTPUpod包含64个第二代TPU,将Google服务器变为了具有每秒11.5千万亿次浮点计算能力的超级计算机,可用于训练单一的大型机器学习模型,或多个较小的模型。谷歌表示,如果想要训练最新的大规模翻译模型,那么使用32颗全球最强大的商用GPU需要一整天时间,而CloudTPUpod却只需要1/8的性能,就能在6小时内完成对该模型的训练。据称,谷歌还在研发由数以千计的TPU组成的TensorFlowResearchCloud。   发布第二代TPU:将成为英伟达最大威胁?   发布了第二代的 Tensor 处理单元(TPU),这是一个云计算硬件和软件系统,它将上线 Google Cloud,被称为 Cloud TPU,主要是为了提高机器学习计算处理所需要大量的负载,包括训练和推理,这个可以说是为 Google 云计算平台带来的巨大福音。这次新的 TPU 设备可提供高达每秒 180 万亿次浮点运算的性能。   据说:第二代TPU的速度比Nvidia最新的Tesla V100还快5倍!   第二代 TPU 设备单个的性能就能提供高达 180 teraflops 的浮点计算量。不仅如此,谷歌还将这些升级版的 TPU 集成在一起成为 Cloud TPU。每个 TPU 都包含了一个定制的高速网络,构成了一个谷歌称之为“TPU pod”的机器学习超级计算机。一个TPU pod 包含 64 个第二代TPU,最高可提供多达 11.5 petaflops,加速对单个大型机器学习模型的培训。   Pichai 还在演讲中表示,使用 TPU pods,谷歌已经大幅提升了训练神经网络的时间。谷歌的一个新的大型翻译模型,以前要 32 颗商业上最好的 GPU 花费一整天的时间来训练——现在,只需一个下午,8 个第二代 TPU 就能达到同样的训练精度。这等于向市场宣布“英伟达的GPU,去你的!”   AI将越来越快颠覆人类社会秩序,Google Assistant这样可怕的人工智能将会逐步掌控我们的生活!

    时间:2020-07-17 关键词: 英伟达 AI googl tpu

  • 2018年五月大事件

     谷歌发布TPU 3.0 AI处理器:性能提升8倍,水冷散热   在今天凌晨的Google I/0 2018大会上,谷歌发布了Android P新系统以及一大波新应用,与硬件相关的并不多,主要的就是谷歌的新一代TPU处理器——TPU 3.0。考虑到谷歌很多应用越来越依赖AI人工智能,TPU 3.0的性能相比目前的TPU 2.0有8倍提升,可达10亿亿次,计算规模堪比TOP500超算冠军,所以散热要求也很高,谷歌直接上了水冷系统。   TPU全名为Tensor Processing Unit(张量处理单元),是谷歌研发的一种神经网络训练的处理器,主要用于深度学习、AI运算,其他公司也有各自研发的AI处理器,叫法不一而已,比如有的叫做NPU神经网络处理器等等,主要用途都差不多。 微芯已完成收购美高森美   Microchip Technology Inc.(微芯半导体)于美国当地时间2018年5月29日宣布已完成其对Microsemi Corporation(美高森美半导体公司)的收购。Microsemi的股东以99.5%的赞成票以压倒性优势通过了本次收购。根据合并协议的条款,微芯以每普通股68.78美元现金支付给Microsemi的股东。由于收购完成,Microsemi于纳斯达克股票市场的普通股交易自今日起停牌。

    时间:2019-01-22 关键词: 3.0 谷歌 处理器 tpu

  • 深度分析:AI 芯片时代为何必然来临——从TPU开始聊聊

    对替代性 TPU 设计的评估和 FPU 类似,TPU 协同处理器比较容易评估,因此我们为六个应用创建了一个性能模型。模型模拟的结果和硬件实际性能的平均差距小于 10%。我们使用性能模型评估了另一款假想的 TPU 芯片,记为 TPU'(使用同样的半导体技术再多花 15 个月我们就能设计出这款芯片)。更激进的逻辑合成和模块设计可以把时钟频率再提高 50%;为 GDDR5 内存设计接口电路(就像 K80 那样)可以将权重读取的内存带宽提高四倍,将 roofline 从斜到平的拐点从 1350 降到 250。单独将时钟频率提高到 1,050 MHz 而不改善内存的话,性能提升非常有限。如果我们把时钟频率保持在 700MHz,但改用 GDDR5 作为内存,则加权平均值飞跃至 3.9倍。同时做这两种措施其实并不会改变性能,因此假设的 TPU' 只具备更快的内存就够了。将 DDR3 权重内存替换成与 K80 相同 GDDR5 内存需要将内存通道的数量翻一倍,即 4 个通道。这一改进会需要将芯片面积扩大约 10%。GDDR5 还需要将 TPU 系统的功率预算从 861W 提高到 900W 左右,因为每台服务器都有四个 TPU。从图4可看出,TPU'的总体每硅片性能/功耗是 Haswell 的 86 倍,K80 的 41 倍。其 incremental 指标是 Haswell 的 196 倍,K80 的 68 倍。讨论这部分按照 Hennessy 和 Patterson 的谬误-陷阱-反驳格式来展开:谬误:数据中心的 DNN 推断应用将吞吐量和响应时间处于同等重要的地位。我们惊讶于谷歌 TPU 开发者对响应时间有这么高的要求,2014 年有人透露说的是:对于 TPU 来说,批量大小应该足够大,以到达 TPU 的计算性能峰值,对延迟的要求不用那么苛刻。一个起到推动作用的应用是离线图像处理,谷歌开发者的直觉是,如果交互式服务也需要 TPU,则大部分服务需要累积足够大的批量然后才交给 TPU 计算。即使 2014 年谷歌关注响应时间(LSTM1)的应用开发者称,2014 年的限制是 10ms,而真正向 TPU 移植时 10ms 将被减少至 7ms。很多此类服务对 TPU 的意料之外的要求,以及它们对快速响应时间的影响和偏好,改变了这个等式。应用编写者通常会选择降低延迟,而不是累积更大的批量。幸运的是,TPU 具备一个简单、可重复的执行模型,来满足交互式服务的低响应时间以及高峰值吞吐量要求,即便是计算相对较小的批量时也比当前 CPU 和 GPU 具备更好的性能。谬误:K80 GPU 架构很适合进行 DNN 推理。我们发现 TPU 在性能、能耗和成本方面优于 K80 GPU 有五个方面的原因。1、TPU 只有一个处理器,而 K80 有 13 个,单线程当然更容易满足严格的延迟目标。2、TPU 具备一个非常大的二维乘法单元,GPU 有 13 个小的一维乘法单元。DNN 的矩阵相乘密度适合二维阵列中的算术逻辑运算单元。3、二维阵列还能通过避免访问寄存器来促成脉动式的芯片实现,节约能源。4、TPU 的量化应用使用 8 位整型,而不是 GPU 的 32 位浮点; K80 并不支持 8 位整型。使用更小的数据,改善的不仅是计算能耗,还能四倍化权重 FIFO 的有效容量和权重内存的有效带宽。(尽管推理时使用的是 8 位整型,但训练这些应用时会保证和使用浮点一样的准确率)5、TPU 忽略 GPU 需要而 DNN 不需要的特征,从而缩小 TPU 芯片、节约能耗、为其他改进留下空间。TPU 芯片的大小几乎是 K80 的一半,通常运行所需能量是后者的三分之一,而它的内存却是后者的 3.5 倍。这五个因素导致 TPU 在能耗和性能方面优于 K80 GPU 30 倍。陷阱:在设计领域专用架构时不顾架构历史。不适用通用计算的想法可能适合领域专用架构。对于 TPU 而言,三个重要的架构特征可以追溯到 1980 年代早期:脉动阵列(systolic array)、解耦访问/执行(decoupled access/execute)和复杂的指令集。第一个特征减少了大型矩阵相乘单元的面积和能耗;第二个特征在矩阵相乘单元运算期间并行获取权重;第三个特征更好地利用 PCIe bus 的有限带宽来发送指令。因此,对计算机架构历史比较了解的领域专用架构设计师具备竞争优势。谬误:如果谷歌对 CPU 的使用更加高效,它得到的结果将可以媲美 TPU。由于有效使用 CPU 的高级向量扩展(AVX2)对整型计算做高效的支持需要大量工作,最初在 CPU 上只有一个 DNN 有 8 位整型的性能测试结果,它的性能提升大约是 3.5 倍。所有的 CPU 性能评估都基于浮点的计算性能来展示会更明确(也不会占太多图表空间),也就没有给这个整型计算结果绘制单独的 Roofline 图。如果所有 DNN 都能够得到类似的加速,TPU 带来的性能/功耗比提升将分别从 41 倍和 83 倍降为 12 倍和 24 倍。谬误:如果谷歌使用合适的新版本,GPU 结果将与 TPU 差不多。表 3 报告了发布 GPU 和客户何时可以在云中使用 GPU 的区别。与较新的 GPU 进行公平比较将包括新的 TPU,而对于额外增加的 10W 功耗,我们只需使用 K80 的 GDDR5 内存就可以将 28 纳米、0.7GHz、40W TPU 的性能提高三倍。把 TPU 移动到 16 纳米工艺将进一步提高其性能/功耗。16 纳米英伟达 Pascal P40 GPU 的峰值性能是第一代TPU 的一半,但它 250 瓦的能耗却是原来的很多倍。如前所述,缺乏错误检测意味着 Google 无法再去数据中心部署 P40,因此无法在它们身上运行生产工作负载来确定其实际相对性能。相关研究两篇介绍 DNN ASIC 的研究文章至少可以追溯到 20 世纪 90 年代初。如 2016 年的 ACM 通讯中所述,DianNao 家族有四种 DNN 架构,通过对 DNN 应用程序中的内存访问模式提供有效的架构支持,可以最大限度地减少片上和外部 DRAM 的内存访问。最初的 DianNao 使用 64 个 16 位整数乘法累加单元的阵列。 谷歌 TPU 3.0 于今年 5 月推出,其功能是 TPU 2.0 的八倍,性能高达 100petaflops,芯片使用液体冷却为 DNN 设计特定领域架构仍然是计算机架构师的热门话题,其中一个焦点是稀疏矩阵的计算架构,这是在 2015 年 TPU 首次部署之后提出的。Efficient Inference Engine(高效推理机)中有一步单独的初始扫描,它会过滤去掉非常小的值,将权重数量减少到 1/10 左右,然后使用哈夫曼编码进一步缩小数据以提高推理的性能。Cnvlutin 略去了激活输入为零时的乘法运算,这种计算出现的几率可以达到 44%,部分原因是非线性变换函数 ReLU 会把输入的负值转换为零;这种略去计算的做法使平均性能提高了 1.4 倍。Eyeriss 是一种新颖的低功耗数据流架构,通过游程编码利用数据中的零来减少内存占用,并通过避免输入为零时的计算来节省能耗。Minerva 是一种跨算法、结构和电路学科的协同设计系统,通过量化数据以及对较小的激活函数剪枝的方式把功耗降低到原来的 1/8。这种系统在 2017 年展出的成果是 SCNN——一种稀疏和压缩卷积神经网络的加速器。权重和激活函数都被压缩在 DRAM 和内部缓冲器中,从而减少了数据传输所需的时间和能量,并允许芯片存储更大的模型。2016 年以来的另一个趋势,是用于训练的特定领域架构。例如,ScaleDeep 就是为 DNN 训练和推理设计的高性能服务器的一次尝试,它包含数千个处理器。其中的每块芯片都以 3:1 的比例包含计算专用模块和存储专用模块,性能优于 GPU 6-28 倍。它支持 16 位或 32 位浮点计算。芯片通过与 DNN 通信模式匹配的高性能互连拓扑连接。和 SCNN 一样,这种拓扑只在 CNN 上评估。2016 年,CNN 仅占谷歌数据中心 TPU 工作量的 5%。计算机架构师期待对其它类型的 DNN 和硬件实现进行 ScaleDeep 评估。DNN 似乎是 FPGA 作为数据中心计算平台的一个良好用例。实际部署的一个例子是 Catapult。尽管 Catapult 是在 2014 年公开发布的,但它与 TPU 是同一个时代的,因为 2015 年在微软数据中心部署了 28 纳米 Stratix V FPGA,与谷歌部署 TPU 差不多在同一时间。Catapult 运行 CNN 比普通服务器快 2.3 倍。也许 Catapult 和 TPU 最显著的区别在于,为了获得最佳性能,用户必须使用低级硬件设计语言 Verilog 为 FPGA 编写长程序,而不是使用高级 TensorFlow 框架编写短程序;也就是说,“可再编程性”(re-programmability)来自于 TPU 的软件,而不是最快 FPGA 的固件。总结尽管 TPU 在 I/O 总线上,并且内存带宽相对有限限制了它发挥全部效能(六个 DNN 应用程序中有四个受限于内存),但一个很大的数即便拆到很细,拆到每个周期 65536 次乘法累加计算,仍然是一个相对较大的数字,如 roofline 性能模型所示。这个结果表明,Amdahl 定律的其实有一个非常有价值的推论——大量廉价资源的低效利用仍然可以提供颇具性价比的高性能。我们了解到,推理应用具有严格的响应时间限制,因为它们通常是面向用户的应用;因此,为 DNN 设计计算芯片的设计师们需要保证满足 99% 情况下的时间限制要求。TPU 芯片利用其在 MAC 和片上内存的优势运行使用特定领域 TensorFlow 框架编写的短程序,该 TensorFlow 框架比 K80 GPU 芯片快 15 倍,因此能获得 29 倍的性能/功耗优势,这与性能/总拥有成本相关。与 Haswell CPU 芯片相比,对应的比率分别为 29 和 83 倍。有五个架构因素可以解释这种性能差距:处理器。TPU只有一个处理器,而K80有13个,CPU有18个;单线程使系统更容易保持在固定的延迟限制内。大型二维乘法单元。TPU有一个非常大的二维乘法单元,而CPU和GPU分别只有18个和13个较小的一维乘法单元;二维硬件在矩阵乘法中有很好的性能。脉动阵列。二维组织支持脉动阵列,减少寄存器访问和能量消耗。8位整型。TPU的应用使用 8 位整型而不是 32 位浮点运算来提高计算和内存效率。弃掉的特征。TPU放弃了 CPU 和 GPU 需要但是 DNN 用不到的功能,这使得 TPU 更便宜,同时可以节约资源,并允许晶体管被重新用于特定领域的板载内存。虽然未来的 CPU 和 GPU 在运行推理时速度更快,但是使用 circa-2015 型 GPU 内存重新设计的 TPU 将比原来快三倍,并使其性能/功耗优势分别为 K80 和 Haswell 的 70 倍和 200 倍。至少在过去十年中,计算机架构研究人员发布的创新成果都是来自模拟计算的,这些成果使用了有限的基准,对于通用处理器的改进也只有 10% 或更少,而我们现在报告的性能提升是原来的十倍不止,这是应用于真实生产应用的真实硬件中部署的特定领域架构的收益。商业产品之间的数量级差异在计算机架构中很少见,而这甚至可能导致 TPU 成为该领域未来工作的典范。我们预计,其他人也会跟进这个方向,并将门槛提得更高。

    时间:2018-10-09 关键词: ai芯片 专用处理器 tpu

  • AI芯片TPU到底能比CPU快多少倍?

    AI芯片TPU到底能比CPU快多少倍?

    我们生活在一个技术推动整个文明基石的时代。但是,尽管拥有所有辉煌的发明和技术进步,今天世界比以往更倾向于速度和敏捷性。我们已经从传统的有线拨号互联网连接转移到第四代无线网络。光纤的广泛分布使得连接到互联网并以快速的速度访问数据成为可能。同样,当涉及到处理器和GPU时,我们已经从仅包含6000个晶体管的传统8位8080微处理器芯片转变为时钟速度高达1.7 GHz的最先进的Octa核心处理器。 人工智能的发展越来越抽象,越来越复杂。从早期简单的是与否的判断,到后来精准的识别,可以在复杂的场景里找出特定的目标,再到后来,出现 AlphaGo 这样可以做出主动的决策的 AI,甚至智能如 AlphaGo Zero,可以完全依靠自学实现快速成长。 人工智能经过这么长时间的发展,在网络的种类、复杂程度和处理的信息量上都发生了天翻地覆的变化。网络种类上,从早期的 AlexNet 和 GoogleNet 到现在各种各样的 GAN(生成对抗网络)以及各种深度强化学习的网络,它们各自网络结构都有不同,开发者在适应最新的网络上常常会遇到一些麻烦。 处理的信息量也在成倍地增长,算力需求越来越高的情况下,对搭载处理单元的体积有更多限制的机器人实际上存在着在智能水平上升级的障碍。这就是为什么人工智能芯片不断升级迭代的原因。 人工智能的终极目标是模拟人脑,人脑大概有1000亿个神经元,1000万亿个突触,能够处理复杂的视觉、听觉、嗅觉、味觉、语言能力、理解能力、认知能力、情感控制、人体复杂机构控制、复杂心理和生理控制,而功耗只有10~20瓦。 可能有很多人会问,目前在人工智能领域,NVidia GPU为什么具有无可撼动的霸主地位,为什么AMD的GPU和NVidia GPU性能相差不多,但是在人工智能领域的受欢迎的程度却有天壤之别。 2011年,负责谷歌大脑的吴恩达通过让深度神经网络训练图片,一周之内学会了识别猫,他用了12片GPU代替了2000片CPU,这是世界上第一次让机器认识猫。 2016年,谷歌旗下Deepmind团队研发的机器人AlphaGo以4比1战胜世界围棋冠军职业九段棋手李世石(AlphaGo的神经网络训练用了50片GPU,走棋网络用了174片GPU),引发了围棋界的轩然大波,因为围棋一直被认为是人类智力较量的巅峰,这可以看做是人工智能史上的又一个重大里程碑事件。 谷歌并不是唯一一家为这种设备上的AI任务设计芯片的公司。 ARM,Qualcomm,Mediatek和其他公司都制造了自己的AI加速器,而Nvidia制造的GPU在培训算法市场上占据了主导地位。 然而,Google的竞争对手并没有控制整个AI堆栈。 客户可以将他们的数据存储在Google的云端; 使用TPU训练他们的算法; 然后使用新的Edge TPU进行设备上推断。而且,他们很可能会使用TensorFlow创建他们的机器学习软件--TensorFlow是由Google创建和运营的编码框架。 这种垂直整合具有明显的好处。 Google可以确保所有这些不同的部分尽可能高效,顺畅地相互通信,使客户更容易在公司的生态系统中玩游戏。 2016年5月的谷歌I/O大会,谷歌首次公布了自主设计的TPU,2017年谷歌I/O大会,谷歌宣布正式推出第二代TPU处理器,在今年的Google I/0 2018大会上,谷歌发布了新一代TPU处理器——TPU 3.0。TPU 3.0的性能相比目前的TPU 2.0有8倍提升,可达10亿亿次。 TPU全名为Tensor Processing Unit,是谷歌研发的一种神经网络训练的处理器,主要用于深度学习、AI运算。在7月份的Next 云端大会,谷歌又发布了 Edge TPU 芯片抢攻边缘计算市场。虽然都是 TPU,但边缘计算用的版本与训练机器学习的 Cloud TPU 不同,是专门用来处理AI预测部分的微型芯片。Edge TPU可以自己运行计算,而不需要与多台强大计算机相连,因此应用程序可以更快、更可靠地工作。它们可以在传感器或网关设备中与标准芯片或微控制器共同处理AI工作。

    时间:2018-09-05 关键词: 处理器 行业资讯 CPU tpu

  • 谷歌发布Edge TPU 芯片抢攻边缘计算市场

    据外媒报道,谷歌(Google) 在 Next 云端大会,发布了 Edge TPU 芯片抢攻边缘计算市场。 Google在积极地构建完整的人工智能(AI) 硬件产品线,而且已经不再满足于为自家数据中心开发AI芯片,它现在正设计将AI芯片整合到其他公司生产的产品中去,变得更具战略重要性。在AI领域,研究人员正用大量数据训练模型,以便机器能够在新数据到来时进行预测。 张量处理单元(Tensor Processing Unit,简称TPU)最初的版本只能做出这些预测,而第二个版本(2017年发布)可被用来训练模型,这一更新使其能与Nvidia显卡竞争,第三代TPU是在今年5月发布的。这次发布的是适合边缘计算的 Edge TPU。虽然都是 TPU,但边缘计算用的版本与训练机器学习的 Cloud TPU 不同,是专门用来处理AI预测部分的微型芯片。     性能虽然远不如一般 TPU,不过胜在功耗及体积大幅缩小,适合物联网设备采用。Edge TPU可以自己运行计算,而不需要与多台强大计算机相连,因此应用程序可以更快、更可靠地工作。它们可以在传感器或网关设备中与标准芯片或微控制器共同处理AI工作。     Google 云端物联网产品管理负责人Antony Passemard 指出,“Edge TPU 是一种超低功耗的 ASIC 芯片,比 1 美分铜板还小,搭配 Cloud IoT Edge 软件并针对 TensorFLow 机器学习模型优化,如此一来部分计算就不需等待远程服务器回应,直接在设备完成。Edge TPU 以极低成本让设备产生计算力,并将改变现有的系统架构,使现代云计算能真正实用化。”     “谷歌并没有让Edge TPU与传统芯片竞争,这对所有硅芯片供应商和设备制造商都非常有利。Edge TPU可能会‘颠覆云计算竞争’,因为许多计算现在可以在设备上进行,而不是全部发送到数据中心。在成本和能耗方面,谷歌芯片在某些类型的计算上比传统芯片更加高效。”Google 云端物联网副总裁 Injong Rhee 强调。     他还称,“Cloud IoT Edge 是由两部分组成,Edge IoT 核心网关功能和 Edge ML,这是基于 TensorFlow Lite 用在边缘设备的模型,并能在 Android Things 或 Linux OS 的设备运行,使 Google 成为唯一一家拥有整合软件和客制硬件堆栈的云服务提供商。” 其他业者其实也早已竞相在物联网、AI 及云端计算提出新解决方案,如微软、AWS 等都推出物联网云端平台,但可以看出 Google 的野心不仅是在单一硬件持续突破,更倾向于提供完整终端服务体验。 LG负责帮助内部和其他公司处理IT服务的CNS团队已经在测试Edge TPU,并计划开始在内部生产线上使用它们检查设备。 目前,在为显示面板生产玻璃的过程中,该检测设备每秒可处理200多张玻璃图像。LG的CNS团队首席技术官Hyun Shingyoon表示,出现的任何问题都需要人工检查,现有系统的准确率约为50%。而谷歌AI的准确率可达99.9%。 Hyun Shingyoon还说:“我的期望是在发现真正影响我们质量的异常和缺陷方面节省资金。”他的团队此前曾研究过英伟达(Nvidia)的一个计算系统。     Google 即将在 10 月推出包含结合 Edge TPU、NXP CPU、Wi-Fi 和 Microchip 等安全组件的开发者套件,并持续与 ARM、Harting、Hitachi Vantara、Nexcom、Nokia 及 NXP 等制造商合作,希望能普及至开发者社群,建立独有的生态。

    时间:2018-07-27 关键词: 芯片 谷歌 边缘计算 布edge tpu

  • 谷歌发布TPU 3.0 AI处理器:性能提升8倍,水冷散热

    在今天凌晨的Google I/0 2018大会上,谷歌发布了Android P新系统以及一大波新应用,与硬件相关的并不多,主要的就是谷歌的新一代TPU处理器——TPU 3.0。考虑到谷歌很多应用越来越依赖AI人工智能,TPU 3.0的性能相比目前的TPU 2.0有8倍提升,可达10亿亿次,计算规模堪比TOP500超算冠军,所以散热要求也很高,谷歌直接上了水冷系统。 TPU全名为Tensor Processing Unit(张量处理单元),是谷歌研发的一种神经网络训练的处理器,主要用于深度学习、AI运算,其他公司也有各自研发的AI处理器,叫法不一而已,比如有的叫做NPU神经网络处理器等等,主要用途都差不多。 TPU的特点是AI运算性能比传统CPU、GPU以及FPGA处理器都要强,同时功耗要低,能效比很高,去年IO大会上发布了TPU 2.0,谷歌就宣称TPU的能效可达GPU的30-80倍,后来还招致NVIDIA的不满。 今年的TPU 3.0在性能上更上一层楼,谷歌CPU皮查伊在发布会上表示TPU 3.0的性能达到了TPU 2.0的8倍多,性能可达100PFLOPS,也就是10亿亿次水平。只看运算能力的话,10亿亿次的TPU 3.0堪比TOP500超算冠军——中国神威·太湖之光,其Linpack浮点性能就是9.3亿亿次,不过超算跟TPU 3.0没啥可比性,一个是专用处理器,一个更加通用。 TPU 3.0急剧提升的性能对系统设计也提出了更高要求,散热方式已经不可能采用TPU 2.0的风冷设计了,谷歌设计了一套水冷系统来给TPU 3.0降温。 TPU 3.0除了谷歌自己用之外,未来数月内还会开放给其他公司及开发人员,TPU云端平台每小时价格6.5美元即可租用TPU 3.0来训练自己的神经网络模型。 本文图片来自Hardware.info。 TPU 2.0采用风冷散热方式

    时间:2018-05-09 关键词: 谷歌 ai处理器 tpu

  • TPU/GPU/FPGA,谁比较厉害?

    TPU/GPU/FPGA,谁比较厉害?

    随着神经网络的研究和应用越来越多,人们也越发地认识到神经网络所需的计算力近乎于无底洞 。如果说高校实验室和一般爱好者在耐心等待之外办法不多的话,大公司们要面对的则是“做还是不做”的问题。 英特尔、英伟达、微软、谷歌这几年为了“做”,都有哪些举动呢?纽约时报的这篇文章可以带我们看看这一变化的梗概。   最近人们希望电脑能做的事情越来越多。电脑要跟人对话,要能认出人脸,也要能认出路边的小花,再过不久还要给人类开车。所有这些人工智能都需要极高的计算能力,即便当下最先进的电脑也没法随随便便完成。 为了能够满足高速增长的计算需求,一些科技巨头们现在正从生物学中寻找灵感。他们正在重新思考电脑的本质,然后建造更像人类大脑的机器:神经系统里要有一个中央脑干,然后把听、说这样的具体任务交给周围的大脑皮层去做。他们希望电脑也能这样。 新时代的萌芽 在连续几年的缓步发展以后,计算机终于又开始进化了,换上了新样子的计算机会产生广泛而持久的影响。它们能够大大提高人工智能系统的运行速度,也许未来某一天“机器人可以统治世界”的梦想也可以成真。这种转换也会削弱芯片巨头英特尔的地位。从提供互联网服务的数据中心、手里的iPhone到VR头盔和无人机,所有科技产品的核心都是半导体芯片。随着新型芯片的时代来临,目前年产值三千亿美元的半导体工业很可能会完全变个样子。 现任谷歌母公司Alphabet董事的 John Hennessy 曾任斯坦福大学校长,1990年代他出版写过一本计算机设计的权威著作。“这是一场巨大的变革,”他说,“现在的这一套做法马上就要过时了,大家都想重新开发一套系统架构。” 现有的计算机架构也有过自己的好日子。在过去的接近五十年里,计算机的设计者们都围绕着一块单独的、全能的芯片设计整个系统。这个全能的芯片就是CPU,台式电脑、笔记本电脑里都有,往往来自英特尔;手机里有时候也有英特尔的CPU。英特尔也是全球最大的半导体生厂商之一。 更复杂的系统在计算机工程师中间变得流行起来。以前可能所有的任务都要传到英特尔CPU中完成,现在的计算机则会把任务分成许多的小块,然后把它们交给外围的专用芯片完成,这些芯片结构比CPU简单、耗电也要更少。 谷歌的大型数据中心里的变化是对全行业未来走向的一个预兆。谷歌大多数的服务器里都还有一个CPU,但是现在有数不清的定制化芯片和它们共同工作,为语音识别等人工智能应用提供运算支持。 实实在在的需求推动了谷歌的这一变化。多年以来,谷歌都有着全世界最大的计算机网络,简直像是一个数据中心和线缆组成的帝国,从加利福尼亚一直扩张到芬兰和新加坡。然而,对这位谷歌的研究员来说,这样的网络还是太小了。   Jeff Dean 和谷歌为人工智能应用开发的TPU Jeff Dean 是谷歌最出名、最受人尊敬的工程师之一。2011年他开始带领团队探索“神经网络”的想法。这种想法的核心是让计算机算法自己学习任务,然后可以用在很多的场合中,比如识别手机用户的语音输入,又或者是照片中的人脸。只花了几个月的时间,Jeff Dean 和他的团队就开发出了一个基于神经网络语音识别系统,它识别对话的准确率要比谷歌那时已有的系统高得多。但接下来也有一个麻烦,全世界运行谷歌的安卓系统的智能手机已经超过了10亿部,假设这些手机用户们每天只用3分钟语音识别,根据 Jeff Dean 的计算,谷歌也需要把现有的数据中心容量翻一倍才能支持得了。 监控着谷歌“数据中心帝国”运行的是计算机科学家 Urs Hölzle,在一次开会的时候 Jeff Dean 就对他说:“我们需要再建立一个谷歌”,后来有参会者回忆道。但这个想法实现不了,Jeff Dean 就提出了一个替代方案:自己造一种专门运行这种人工智能的芯片。 谷歌数据中心里的这个苗头已经扩散到了其它科技巨头的身上。在未来几年里,谷歌、苹果、三星等公司都会制造带有专用的AI芯片的手机。微软设计的这种芯片打算专门用在AR头盔上,然后谷歌、丰田等一大群造自动驾驶汽车的厂商也会需要类似的芯片。 这种研发专用芯片和新计算机架构的热潮,在美国国防部研究机构 DARPA 的前项目管理人员 Gill Pratt 看来可谓是人工智能界的“寒武纪生物大爆发”,他本人现在正在丰田从事无人车的研究。他已经感觉到,把不同的计算分散给数量众多的小面积、低功耗芯片的运行方式,会让机器更像人脑,这也让能源的利用效率提高了不少。“在生物的大脑中,能源效率至关重要”,在近期的一次采访中,身处丰田在硅谷的新研究中心的 Gill 这样说。 地平线已经发生变化 硅基的计算机芯片有很多种。有的芯片可以存储数据,有的芯片可以完成玩具和电视机中的基本任务;也有的芯片可以运行计算机上的各种运算,它们大到能构造全球变暖模型的超级计算机用的芯片,小到个人计算机、服务器和手机上用的。 多年以来,计算机和类似的设备都是以CPU为核心运行的,CPU也是设备成本的大头。这一切都似乎不需要做什么改变。根据英特尔联合创始人戈登·摩尔提出的著名的摩尔定律,计算机芯片中晶体管数量每两年左右就会翻一番,几十年来计算机性能的提升就是按照摩尔定律一路稳定地发展了过来。而根据 IBM 研究员 Robert Dennard 提出的 Dennard 缩放定律,芯片性能提升的同时,它们消耗的能源却几乎维持不变。所以在以往的日子里一切都还好。 然而到了2010年,让晶体管数量再翻一倍花的时间比摩尔定律预测的更长了,Dennard 缩放定律也失效了,因为芯片设计人员们遇到了来自材质物理特性本身的限制。结果就是,如果想要更高的计算能力,只靠升级CPU已经不能解决问题了,需要增加更多的计算机、消耗更多的空间和电力。[!--empirenews.page--]   语音和语言团队负责人黄学东(左)和计算架构组的 Doug Burger 都是微软的专用芯片开发团队成员 业界和学术界的研究者们都在想办法延长摩尔定律的生命力,探索全新的芯片材料和芯片设计方法。但是微软研究员 Doug Burger 有了另一种想法:除了整个业界从1960年代以来都倚仗的CPU的稳步进化之外,为什么不试着探索专用芯片之路呢? 当时微软才刚刚开始用机器学习改进必应搜索,通过分析用户的使用方式改善搜索结果。虽然那时候的算法对硬件的要比后来风靡的神经网络低得多,但是芯片已经有点跟不上了。 Doug Burger 和他的团队做了很多不同的尝试,最终决定用了这种叫做“FPGA”(现场可编程矩阵门阵列)的芯片,它们可以在工作过程中重新编程,适应新的任务。微软的Windows需要运行在英特尔的CPU上,但是CPU是不能重新编程的,一旦造出来,能做什么就固定了。有了FPGA,微软就可以改变芯片工作的方式。他们可以先对芯片编程,让它在特定的机器学习算法中表现非常好;然后可以重新编程,让它适合做逻辑运算。同一个芯片可以有截然不同的表现。 大概2015年前后,微软开始应用这类芯片。到现在,几乎每一台微软的数据中心新增的服务器中都带有一块FPGA芯片,它们帮助呈现必应搜索的结果,以及支持着微软的云计算服务Azure。 给计算机装上耳朵 2016年秋天,另一组微软的研究员们做了和 Jeff Dean 的团队同样的工作,构建了一个比人类的平均水平还要高一点点的语音识别系统,也是通过神经网络。 这个项目的负责人就是黄学东,他是来自中国的语音识别专家。在介绍这项工作的论文发表之后没多久,他就约了他的好朋友、英伟达 CEO黄仁勋在 Palo Alto 吃了个饭。他们开了一瓶香槟庆祝。 黄学东和他的微软同事们就是靠着数量众多的英伟达 GPU训练出他们的语音识别系统的。没有继续使用英特尔的CPU。如果没有做这样的转换,他们很可能完成不了这项突破。“我们花了差不多一年的时间达到了人类的水平”,黄学东说。“如果没有新计算架构的帮助,我们可能至少要花5年。” 基于神经网络的系统可以很大程度上自己学习,所以它们进化得比传统方法设计的系统快得多。以往的系统需要工程师们写下无数行代码,仔仔细细描述系统应该如何如何做。基于神经网络的系统就不需要这样。不过神经网络的问题就是,它需要无数次的试错。要构建一个单词识别达到人类水平的系统,研究者们需要花费很多时间反复训练它,对算法做精细的调节,以及不断优化训练数据。这个过程里需要尝试成百上千算个不同的算法,每个算法又需要运行上万、上亿次。这需要庞大的计算能力,如果微软这样的公司用一般的通用芯片来做这样的计算,这个过程花的时间就太久了,芯片可能支持不了这样高的负载,用掉的电也太多了。 所以,几个互联网巨头都已经借助英伟达的GPU训练自己的神经网络。GPU本来的设计只是为了用在游戏图形渲染中的,专用的设计让它们保持了CPU近似水平的功耗,但是在神经网络训练中的计算速度要比CPU高很多。现在GPU就和CPU联手负责计算机中的运算。 英伟达借着这个机会大举扩张,向美国以及全世界的科技公司销售了大量的GPU,中国公司的购买数量尤为惊人。英伟达季度营收中数据中心业务的部分,在过去的一年中翻了3倍,超过了4亿美元。 “有点像是互联网刚兴起的那时候就走对了路”,黄仁勋在最近的一个采访中说。换句话说,科技界的局势正在快速改变,英伟达正处在这场改变的中心。 创造专用芯片 GPU是各个公司训练神经网络的重要基石,不过这也只是整个过程中的一部分。当神经网络训练完毕以后就可以开始执行任务,这时候需要的计算能力又有所不同。 比如,在训练好一个语音识别算法以后,微软会把它作为一个线上服务提供出来,然后它就可以开始识别人们讲给自己手机的指令。GPU在这种时候就没有那么高效了。所以很多公司现在都开始制造专门用于执行所学到的东西的芯片。 谷歌造了自己的专用芯片:TPU。英伟达也在造类似的芯片。微软在继续对 FPGA 芯片重新编程来让它们更适合运行神经网络,这些芯片来自英特尔收购的 Altera。 其它的公司也在后面追赶。专做智能手机用的ARM芯片的高通,以及数量客观的初创公司都在研发AI芯片,希望能在这个快速成长的市场中分一杯羹。根据科技调研公司 IDC 预计,到2021年,带有替代计算芯片的服务器将达到68亿美元的销售额,大致是整个服务器市场的十分之一。   Bart Sano 表示目前 TPU 也只是谷歌整个网络运营里的一小部分 Doug Burger 透露,在微软全球的服务器网络中,替代计算芯片只占了所有运营中很小的一部分。谷歌的网络软硬件研发工程副总裁 Bart Sano 表示谷歌的数据中心也是类似的状况。 英特尔实验室的主管 Mike Mayberry 已经向着替代计算芯片开始发起努力。可能是因为英特尔占据着数据中心市场90%的市场份额,从而也是传统芯片的最大的销售商。他说,如果对CPU做一些适当的修改,它们也可以应对新的任务而无需其它帮助。 不过这个硅片的新浪潮扩散得很快,英特尔的市场地位也越来越纠结。它一方面否认市场正在发生变化,但是又或多或少地转换着自己的业务避免掉队。2年前,英特尔花费了高达167亿美元收购了Altera,这家公司造的就是微软使用的FPGA。这是英特尔历史上最大的收购。去年,英特尔又收购了一家开发专门用于神经网络的公司 Nervana,据说又花了超过4亿美元。如今,在Nervana团队的领导下,英特尔也在开发一款专门用于神经网络训练和执行的芯片。[!--empirenews.page--] 硅谷风投公司红杉资本的合伙人 Bill Coughran 在过去的接近10年中为谷歌的互联网基础设施出谋划策,他的工作内容基本针对的就是英特尔。他表示,“他们都有大公司病,他们需要想清楚如何踏入这片新的、成长中的领域,而且还不损害他们的传统业务。” 当英特尔内部高管们讨论摩尔定律失效的状况时,他们内部的混乱连公司外的人都看得到。在近期一次纽约时报的采访中,Nervana创始人、现在已是英特尔高管的Naveen Rao表示,英特尔其实可以让摩尔定律“再坚持几年”。从官方口径上讲,英特尔的姿态是传统芯片的改善在未来10年都还可以顺利地进行下去。 英特尔实验室的主管 Mike Mayberry 则表示加一两块芯片不是什么新鲜事了,他说以前的电脑里就有单独的芯片来处理声音之类的事情。 不过现在的趋势要比以前大多了,而且从新的层面上改变着这个市场。英特尔面前的竞争对手不仅有英伟达和高通的这样的芯片制造商,还有谷歌和微软这样一直以来都相当“软”的公司。谷歌已经在设计第二代的TPU芯片了。根据谷歌的说法,今年晚些时候,任何谷歌云计算服务的客户或者开发者都可以在新的TPU芯片上面运行他们自己的软件。 虽然目前这些事情都还只发生在消费者视野之外的大型数据中心里,但是这对整个IT工业体系产生广泛的影响恐怕只是时间问题。人们最期待的是,随着新型移动芯片的到来,手持设备也可以独立完成更多、更复杂的任务,不再需要把任务交给几百公里外的数据中心,无论是智能手机无需互联网也能识别语音指令,还是无人驾驶汽车可以用现在无法企及的速度和精度识别周边的世界。 换句话说,无人驾驶汽车少不了摄像头和雷达,但是同样少不了一颗好的大脑。

    时间:2017-09-25 关键词: 谷歌 英伟达 计算芯片 行业资讯 CPU tpu

  • 人工智能大潮来袭,PU们还没有准备好?

    人工智能大潮来袭,PU们还没有准备好?

    前不久,在中国工程院信息与电子工程学部举行的第一届人工智能计算大会上,出现了一个颇为有趣的景象。作为连续3次夺得全球超算500强冠军的超级计算机“神威·太湖之光”的运营者,清华大学教授、国家超级计算无锡中心主任杨广文受邀来到会场,并就超算在人工智能领域如何显“神威”作了主题发言。但在他的发言前后,与会者纷纷谈到的观点却是:在人工智能飞速发展的今天,人类的计算能力显然有些跟不上了。 这当然不是针对杨广文,也非“神威·太湖之光”,后者已经足够快了——它是世界第一台运行速度超10亿亿次/秒的超级计算机,性能指标超过全球500强超算榜单第二至第六名5台超级计算机的总和,速度相当于普通家用电脑的200万倍。 然而,相比人类的大脑——也就是人工智能学习的对象,目前人类创造出的任何一台计算机,哪怕是超级计算机,又都显得太慢了。在“神威·太湖之光”之前,天河二号曾六度称雄全球超算榜单,如今位居第二,但人脑的计算能耗比则是其200万倍。模拟人脑对当下的超算仍是一件“渴望不可及”的任务。 正如此次大会发起人、中国工程院院士、浪潮集团首席科学家王恩东所说,尽管人工智能如今迎来蓬勃发展,但仍是挑战重重,这其中在他看来排在第一位的,就是计算性能。也因此,这次大会主题有两个关键词:人工智能和计算。 人工智能将带“世界工厂”走向“世界智能工厂”? 无论从哪个方面来看,人工智能都很可能是人类未来社会的大势所趋。在会场上,中国工程院一位专家列举了人工智能正带给人们的一些革命性变化—— 在医疗领域,图像识别技术可以促进癌症诊断的准确性。在农业领域,种植者可以利用深度学习促进农作物产量增长。在能源行业,人工智能提升了勘探效率和装备可靠性。在金融服务行业,人工智能应用降低了决策成本,金融数据得以更快速的分析。 更为重要的是,“人工智能正在从娃娃抓起”。 王恩东注意到,今年9月开学季,孩子们迎来的“开学第一课”,就请出对战阿尔法的柯洁,以及和郎朗PK琴技的意大利钢琴机器人TEO。前不久,国务院印发了《新一代人工智能发展规划》(以下称《规划》),其中就提出要在中小学阶段设置人工智能相关课程。 在中国工程院这位专家看来,《规划》的出台,可以看作“我国正式将人工智能上升为国家战略”的表现,从而促使我国从“世界工厂”向“世界智能工厂”转型。这位专家相信,在新的政策驱动下,我国人工智能的发展将更加迅猛。 业内人士谈及人工智能,离不开3个关键词:计算、算法、数据。 这位专家说,如今,算法的突破以及数据洪流的爆发,成就了人工智能行业,并使得几乎所有的“机器辅助功能”都成为可能——更好的电影推荐、智能穿戴,甚至无人驾驶汽车、预防性医疗保健,都近在眼前,或者即将实现。 美好的蓝图却让他有了一个担心,这种担心,就来自发展人工智能的一个要素:计算。 这位专家说,目前我国“应用终端的发展”远远走在“硬件架构”的前面,现有计算平台已经不足以完成人工智能对于庞大运算量的需求。 这一轮人工智能浪潮的王牌是“计算”? 在中国工程院这位专家看来,中国拥有世界最大的移动互联网市场,拥有非常庞大的“数据”量,这为我国发展人工智能创造了得天独厚的基础;同时,深度学习框架的开发和开源,使得人工智能“算法”的开发越来越便捷,相比之下,“计算”平台就成为本轮推动人工智能进步的重要因素。 王恩东同意这位专家的这一说法,他打了一个比方,来说明“计算”的重要性。 他说,图灵同时被称作“计算机科学之父”和“人工智能之父”,而他先发明的是计算机基本原型,人工智能则是后来提出的。从这个角度来看,“计算机是大儿子,人工智能则是二儿子”。 王恩东说,纵观几十年来的发展来看,大儿子和二儿子的特点并不一样,前者比较稳重,比较有耐性,不调皮不捣蛋,如摩尔定律所说,按照某个规律持续发展。后者则比较活跃,有创新思维,敢冒险,但也经历了三落三起。 如今,学界一个共识是,人们又迎来了人工智能研究的又一“起”,即又一个发展高峰。在王恩东看来,这次“二儿子”的发展高峰,正是“大儿子”迅猛发展所带来的。 当天会场的楼下,摆放着数十台样式各异的计算机、服务器。王恩东说,这其中一台小小服务器的计算速度,就是20年前最快计算机的60倍。正是由于计算能力的快速发展,结合互联网、物联网带来的海量数据和深度学习等先进算法,才共同催生了第三次人工智能浪潮。 而这一次浪潮,在王恩东看来,离不开计算、算法和数据的发展,而计算,是这一切的基础。 “现在我们说计算芯片,除了原来的CPU,还出现了GPU,以及谷歌的TPU,甚至还有DPU,为何有这样一堆‘PU’,说到底,就是计算性能还不够!”王恩东说,必须要大力整合发展一批专用芯片,提供一个先进的计算平台,整合这些框架,避免再陷入到上两次人工智能的窘境里去。 即便是做应用的人,对此也有类似的感受。微软首位华人“全球技术院士”、微软首席语音科学家黄学东在大会上表示,今天包括智能语音在内的智能产品,因为需要实时,所以还需要更加强大的GPU,更加强大的计算能力作支撑,如此人类才有希望真正用上“超人水平”的语音识别。 做人工智能的,不懂计算,做计算的,不懂人工智能? 在人工智能研究者眼中,包括超级计算机在内的计算设备,只是人工智能发展的一个要素,而从杨广文这些超级计算机运营者的角度来看,人工智能更像是超级计算机这个大平台的一个应用。当然,角度的不同,并不妨碍两者互为支撑,碰撞火花。 事实上,包括“神威·太湖之光”在内的超级计算机,已经能够满足一定程度的人工智能研究,但在杨广文看来,目前一个很大的问题就在于“衔接”:“很多做人工智能、懂算法的人,不会用超算;而专心做超算的人,又对人工智能不太了解。这是一个大问题”。 去年11月,中科院软件研究所研究员杨超等人获得2016年度高性能计算应用最高奖——戈登·贝尔奖。这是近30年来,中国超算应用团队第一次获得被誉为“超级计算机应用领域诺贝尔奖”的奖项。 按照杨广文的说法,当时,包括杨超等在内的计算机科学家所要做的,就是将算法写成可以在计算机上执行的程序。“这个过程十分困难,而要把这个程序,移植到‘神威·太湖之光’上更是艰辛!” 不过据他透露,包括神威·太湖之光在内的超算,正在开展大量的移植优化工作,目的就是“降低人工智能使用超算的门槛”,未来诸如语音、图形图像、精准医疗、智能交通等在内的人工智能应用,争取都能找到相应的计算平台。 当然,人工智能大潮来袭,计算性能的提升只是一个问题,此外,还有其他关键问题亟待科学家解决。比如,香港浸会大学副教授褚晓文在大会上所提到的:为什么今天有这么多深度学习软件,但它们的性能却有如此大的差异? 他说,在过去11年里,内存带宽仅仅提升了15~16倍,而计算能力则提升了30~50倍,这说明内存的性能和计算的性能之间的差距,在逐渐拉大,这也是GPU计算今天面临的一个巨大挑战——在相对强悍的计算能力和相对薄弱的内存访问之间,横跨的那一道鸿沟。

    时间:2017-09-11 关键词: 智能硬件 行业资讯 CPU GPU tpu 人工智能

  • 英特尔和英伟达如何应对AlphaGo来袭、谷歌TPU芯片发力?

    英特尔和英伟达如何应对AlphaGo来袭、谷歌TPU芯片发力?

    日前,去年击败世界围棋第一人李世石,由DeepMind(已被谷歌收购)开发的围棋AI—AlphaGo,已移师中国,再战目前等级分排名世界第一的中国棋手柯洁九段,且率先拿下一局暂时领先的消息再次引发了业内的高度关注。 那么问题来了,AlphaGo缘何如此“聪明”和超乎人类的思考和反应能力? 就在AlphaGo与柯洁“人机大战”不久前,Google I/O 2017 大会上,谷歌“移动为先”向“AI优先”再次升级,其中最典型的表现之一就是更新升级了去年公布的TPU(Tensor Processing Unit),一款谷歌自己高度定制化的AI(针对AI算法,例如其自己开发的Tensor Flow深度学习架构)芯片。   这款芯片也是AlphaGo背后的功臣,即AlphaGo能以超人的熟练度下围棋都要靠训练神经网络来完成,而这又需要计算能力(硬件越强大,得到的结果越快),TPU就充当了这个角色,更重要的是借此显现出了在AI芯片领域相对于英特尔CPU和英伟达GPU的优势。何以见得? 在去年的“人机大战”中,起初AlphaGo的硬件平台采用的是CPU+GPU,即AlphaGo的完整版本使用了40个搜索线程,运行在48块CPU和8块GPU上,AlphaGo的分布式版本则利用了更多的芯片,40个搜索线程运行在1202块CPU和176块GPU上。 这个配置是和当时樊麾比赛时使用的,所以当时李世石看到AlphaGo与樊麾的对弈过程后,对“人机大战”很有信心。但是就在短短几个月时间内,谷歌就把运行AlphaGo的硬件平台切换到了TPU上,之后对战的结果是AlphaGo以绝对优势击败了李世石。也就是说,采用TPU之后的AlphaGo的运算速度和反应更快。那么究竟TPU与CPU和GPU相比,到底有多大的优势(例如性能和功耗)? 据谷歌披露的相关文件显示,其TPU与服务器级的英特尔Haswell CPU和英伟达K80 GPU进行比较,这些硬件都在同一时期部署在同个数据中心。测试负载为基于TensorFlow框架的高级描述,应用于实际产品的NN应用程序(MLP,CNN和LSTM),这些应用代表了数据中心承载的95%的NN推理需求。 尽管在一些应用上利用率很低,但TPU平均比当前的GPU或CPU快15~30倍,性能功耗比(TOPS/Watt)高出约30~80倍。此外,在TPU中采用GPU常用的GDDR5存储器能使性能TPOS指标再高3倍,并将能效比指标TOPS/Watt提高到GPU的70倍,CPU的200倍。   尽管英伟达对于上述的测试表示了异议,但TPU相对于CPU和GPU存在的性能功耗比的优势(不仅体现在AI,还有数据中心)已经成为业内的共识。值得一提的是,在刚刚举办Google I/O 2017 大会上发布的新一代TPU已经达到每秒180万亿次的浮点运算性能,超过了英伟达刚刚推出的GPU Tesla2 V100每秒120万亿次浮点运算性能。那么是什么造就TPU的优势? 简单来说,CPU是基于完全通用的诉求,实现的通用处理架构。GPU则主要基于图像处理的诉求,降低了一部分通用性,并针对核心逻辑做了一定的优化,是一款准通用的处理架构,以牺牲通用性为代价,在特定场合拥有比CPU快得多的处理效率。 而TPU,则针对更明确的目标和处理逻辑,进行更直接的硬件优化,以彻底牺牲通用性为代价,获得在特定场合和应用的极端效率,也就是俗话所言的“万能工具的效率永远比不上专用工具”。而这正好迎合了当下诸多炙手可热的人工智能的训练和推理等均需要大量、快速的数据运算的需求。 到目前为止,谷歌的TPU已经应用在各种领域的应用中,例如谷歌图像搜索(Google Image Search)、谷歌照片(Google Photo)、谷歌云视觉API(Google Cloud Vision API)、谷歌翻译以及AlphaGo的围棋系统中。实际上我们上述提到的Google I/O 2017大会推出和更新的诸多AI产品和服务背后均有TPU的硬件支持。 当然,我们在此并非否认CPU和GPU在AI中的作用,例如鉴于CPU的通用性,其灵活性最大,不仅可以运行各种各样的程序,也包括使用各种软件库的深度学习网络执行的学习和推理。GPU虽然不像 CPU那样通用和灵活,但它在深度学习计算方面更好,因为它能够执行学习和推理,并且不局限于单个的软件库。相比之下,TPU则几乎没有灵活性,并且只能在自家的TensorFlow中效率最高,这也是为何谷歌对外声称TPU不对外销售,且仍会继续采用CPU和GPU。 但谷歌的这一做法印证了一个芯片产业的发展趋势,即在AI负载和应用所占数据中心比重越来越大的今天和未来,像谷歌、微软、Facebook、亚马逊、阿里巴巴、腾讯等这些数据中心芯片采购的大户,其之前对于CPU和GPU的通用性需求可能会越来越少,而针对AI开发应用的兼顾性能和能效的定制化芯片需求则会越来越多。 而作为通用芯片厂商的英特尔和英伟达,如何顺应芯片产业在AI驱动下的发展趋势,则关系着其在AI时代到来之时,其能否继续满足客户的需求和引领产业的发展。或许,应该特尔和英伟达都应该未雨绸缪。

    时间:2017-05-24 关键词: 英特尔 英伟达 行业资讯 tpu

  • AlphaGo胜柯洁 谷歌TPU 2.0居功至伟

    昨日,去年击败世界围棋第一人李世石,由谷歌收购的DeepMind开发的围棋AI—AlphaGo移师中国,再战目前等级分排名世界第一的中国棋手柯洁九段,且率先拿下一局暂时领先的消息再次引发了业内对于AlphaGo的关注。那么问题来了,AlphaGo缘何如此的“聪明”和超乎人类的思考和反应能力? 就在AlphaGo与柯洁“人机大战”不久前,谷歌 I/O 2017 大会上,谷歌“移动为先”向“AI优先”再次升级,其中最典型的表现之一就是更新和升级了去年I/O 2017 大会上公布的TPU(Tensor Processing Unit),一款谷歌自己高度定制化的AI(针对AI算法,例如其自己开发的Tensor Flow深度学习架构)芯片,也是AlphaGo背后的功臣,即AlphaGo能以超人的熟练度下围棋都要靠训练神经网络来完成,而这又需要计算能力(硬件越强大,得到的结果越快),TPU就充当了这个角色,更重要的是借此显现出了在AI芯片领域相对于英特尔的CPU和英伟达GPU的优势。何以见得? 据称,在去年的“人机大战”中,起初AlphaGo的硬件平台采用的是CPU + GPU,即AlphaGo的完整版本使用了40个搜索线程,运行在48颗CPU和8块GPU上,AlphaGo的分布式版本则利用了更多的芯片,40个搜索线程运行在1202颗CPU和176颗GPU上。这个配置是和当时樊麾比赛时使用的,所以当时李世石看到AlphaGo与樊麾的对弈过程后对“人机大战”很有信心。但是就在短短的几个月时间,谷歌就把运行AlphaGo的硬件平台换成了TPU,之后对战的结果是AlphaGo以绝对优势击败了李世石,也就是说采用TPU之后的AlphaGo的运算速度和反应更快。究竟TPU与CPU和GPU相比到底有多大的优势(例如性能和功耗)? 据谷歌披露的TPU相关文件显示,其TPU 与服务器级的英特尔Haswell CPU 和英伟达 K80 GPU 进行比较,这些硬件都在同一时期部署在同个数据中心。测试负载为基于 TensorFlow 框架的高级描述,应用于实际产品的 NN 应用程序(MLP,CNN 和 LSTM),这些应用代表了数据中心承载的95%的 NN 推理需求。尽管在一些应用上利用率很低,但 TPU 平均比当前的 GPU 或 CPU 快15~30倍,性能功耗比(TOPS/Watt)高出约 30~80 倍。此外,在 TPU 中采用 GPU 常用的 GDDR5 存储器能使性能TPOS指标再高3倍,并将能效比指标 TOPS/Watt 提高到 GPU的70 倍,CPU的200倍。 尽管英伟达对于上述的测试表示了异议,但TPU相对于CPU和GPU存在的性能功耗比的优势(不仅体现在AI,还有数据中心)已经成为业内的共识。值得一提的是,在刚刚举办谷歌 I/O 2017 大会上发布的新一代 TPU已经达到每秒 180 万亿次的浮点运算性能,超过了英伟达刚刚推出的 GPU Tesla2 V100每秒120 万亿次浮点运算的性能。那么是什么造就TPU如此的优势? 简单来说,CPU是基于完全通用的诉求,实现的通用处理架构,GPU则主要基于图像处理的诉求,降低了一部分通用性,并针对核心逻辑做了一定的优化,是一款准通用的处理架构,以牺牲通用性为代价,在特定场合拥有比CPU快得多的处理效率。而TPU,则针对更明确的目标和处理逻辑,进行更直接的硬件优化,以彻底牺牲通用性为代价,获得在特定场合和应用的极端效率,也就是俗话所言的“万能工具的效率永远比不上专用工具”,而这正好迎合了当下诸多炙手可热的人工智能的训练和推理等均需要大量、快速的数据运算的需求。 到目前为止,谷歌的TPU已经应用在各种领域的应用中,例如谷歌图像搜索(Google Image Search)、谷歌照片(Google Photo)、谷歌云视觉API(Google Cloud Vision API)、谷歌翻译以及AlphaGo的围棋系统中。实际上我们上述提到的谷歌 I/O 2017 大会推出和更新的诸多AI产品和服务背后均有TPU的硬件支持。 当然,我们在此并非否认CPU和GPU在AI中的作用,例如鉴于CPU的通用性,其灵活性最大,不仅可以运行各种各样的程序,也包括使用各种软件库的深度学习网络执行的学习和推理。GPU 虽然不像 CPU 那样通用和灵活,但它在深度学习计算方面更好,因为它能够执行学习和推理,并且不局限于单个的软件库。性比之下,TPU 则几乎没有灵活性,并且只能在自家的TensorFlow 中效率最高,这也是为何谷歌对外声称TPU不对外销售,且仍会继续采用CPU和GPU。 但谷歌的这一做法印证一个芯片产业的发展趋势,即在AI负载和应用所占数据中心比重越来越大的今天和未来,像诸如谷歌、微软、Facebook、亚马逊、阿里巴巴、腾讯等这些数据中心芯片采购的大户,其之前对于CPU和GPU的通用性需求可能会越来越少,而针对AI开发和应用的兼顾性能和能效的定制化芯片会越来越多,而作为通用芯片厂商的英特尔和英伟达,如何顺应这一芯片产业在AI驱动下的变化和发展趋势未雨绸缪,则关系着其在AI时代到来之时,其能否继续满足客户的需求和引领产业的发展。

    时间:2017-05-24 关键词: 2.0 alphago tpu 人工智能

  • 聚焦:谷歌开发者大会

    聚焦:谷歌开发者大会

    8日凌晨,谷歌一年一度的开发者大会I/O拉开帷幕,其CEO Sundar Pichai发表主旨演讲。重磅发布了谷歌第二代TPU和Cloud TPU,被认为对英伟达构成较大威胁。新智元第一时间带来深度解读。本文还对凌晨谷歌新发布的9大产品进行了简要介绍,其中包括图像处理、机器学习平台、虚拟助理和智能家居的重大新功能、VR/AR等等。带你一文看懂昨晚的I/O大会首秀。 2017年5月18日凌晨,素有科技界四大春晚之一的谷歌开发者大会(I/O) 在加利福尼亚州的山景城开幕。     谷歌CEO Sundar Pichai发表主旨演讲。以下是本场主旨演讲的一些亮点: 1.谷歌针对Siri的竞品——Google Assissaant 可直接在iPhone上使用; 2.谷歌在芯片上再放大招推云TPU;CNBC报道称,英伟达可能会为此感到害怕(Scare); 3.谷歌智能音箱Google Home新推四大功能,可直接用于语音通话,也可免费拨打手机; 4.谷歌照片(Google Photos)现在已经有超过5亿用户,新增加的人脸识别等技术可以让用户更智能地分享照片; 5.谷歌新推独立VR硬件(不需要手机),与联想和HTC合作; 6.手机上的TensorFlow:TensorFlow Lite很快开源。 Sundar 在演讲一开始便提到,谷歌在很多年前就开始布局的数据和机器学习,这让他们的产品现在有了超过10亿的用户量,另外,安卓的活跃用户已经超过20亿。     今年Sundar反复提及的主题依然是:从“手机为先”到“AI为先”。他说:“手机使我们重新想象我们正在进行的一切。我们必须从根本上重新想象我们正在做的一切,有了‘AI为先’,我们也是在做一样的事情。”   Pichai 的演讲不长,但信息量却很大——本届谷歌 I/O 大会现场有7000多人参加,在 400 多个国家直播。Pichai 还专门查询了去年谷歌 I/O 大会的评价和反馈——由于大会是在露天举办的——表示今年会免费提供防晒霜给各位参会者,赢得台下一篇掌声和笑声。 Pichia 说,跟所有的计算平台范式转换一样,从键盘鼠标到手指触控再到现在的语音交互,计算机在自然语言理解和处理方面的能力不断提高,即使在噪音环境中也能比较准确地识别说话人的命令,很自然地带出了 Google Home 的广告。 除了语音,视觉也是另一大重点。Pichai 现场展示了两个例子,一是图像去模糊,二是隔着铁丝网拍摄小女打垒球时,去除前景,也即铁丝网。Pichai 表示,计算机也正在逐步开始理解图像和视频的含义。 发布的第一款产品:谷歌 Lens     Sundar Pichai 2017年I/O大会上展示的第一款产品是谷歌 Lens,可以认为是一款智能相机,只要对着拍照对象,相机就能读懂画面上的事物,比如识别花的种类、翻译商店和菜品名称,或连Wifi。 震慑英伟达:第二代TPU和Cloud TPU 发布 Sundar 称,搜索无疑是从 Moblie-Frist 到 AI-First 的一大重点。去年,谷歌在 I/O 大会上宣布了其内部自己研发的 TPU——专为加速机器学习的第二阶段“推理”而专门设计的芯片。今年,Pichai 又用十分轻松的语气宣布了 TPU 的升级版——Cloud TPU 这一重磅消息。 尽管此前已经有各种讨论,谷歌会研发 TPU 第二代,但是谁也没有想到,升级版的 TPU 会以结合谷歌云的形式出现。这个名为 Cloud TPU 的产品将加速机器学习一系列广泛的工作量,最初是通过 Google Compute Engine 提供。 就在上周,GPU 巨头英伟达才揭幕了专门针对张量处理而升级的新款 GPU。现在,谷歌拿出了更大的一张底牌。过去几年,神经网络应用巨幅加快了谷歌的一系列 AI 产品,在谷歌搜索、谷歌翻译、谷歌相册,还有著名的“世纪大战”——AlphaGo 对弈李世石当中,表现优异,而初代 TPU 也成为其中不可或缺的英雄之一。 现在,仅仅加速推理的初代 TPU 已经不能满足谷歌的需求。神经网络的“训练”部分——也是对计算量需求最大最多最重要的部分,谷歌此前还是依赖市售的 CPU/GPU。而显然,这些也已经无法满足谷歌的需求。 现在,Pichai 在 2017 谷歌 I/O 大会宣布的第二代 TPU,既能够加速推理,也能够加速训练。 第二代 TPU 设备单个的性能就能提供高达 180 teraflops 的浮点计算量。不仅如此,谷歌还将这些升级版的 TPU 集成在一起成为 Cloud TPU。每个 TPU 都包含了一个定制的高速网络,构成了一个谷歌称之为“TPU pod”的机器学习超级计算机。一个TPU pod 包含 64 个第二代TPU,最高可提供多达 11.5 petaflops,加速对单个大型机器学习模型的培训。 Pichai 还在演讲中表示,使用 TPU pods,谷歌已经大幅提升了训练神经网络的时间。谷歌的一个新的大型翻译模型,以前要 32 颗商业上最好的 GPU 花费一整天的时间来训练——现在,只需一个下午,8 个第二代 TPU 就能达到同样的训练精度。     依然奉行保密主义,升级版的 TPU 具体设计架构也用散热片挡住。 现在,第二代升级版 TPU 已经在谷歌数据中心部署使用——这不禁让人想起去年,谷歌也是在使用初代 TPU 一年多以后才公开宣布 TPU 的存在——每个“TPU pod”都包含了 64 个第二代 TPU,最高速度能达到 11.5 petaflops 的加速度。 谷歌将新的 TPU 引入云端,作为 Google Compute Engine 的一部分,将其称之为 Cloud TPU。你可以把这个 Cloud TPU 想象成一台超级计算机,能够连接其他类型的硬件(包括英特尔 Skylake CPU 和英伟达的 GPU)。显然,谷歌在这里仍然向英特尔和英伟达示好,表示不会抛开市售 CPU/GPU。 而 Cloud TPU 带来的最大好处,则是谷歌的开源机器学习框架 TensorFlow。TensorFlow 现在已经是 Github 最受欢迎的深度学习开源项目,可以想象,Cloud TPU 出现以后,开发人员和研究者使用高级 API 编程这些 TPU,这样就可以更轻松地在CPU、GPU 或 Cloud TPU 上训练机器学习模型,而且只需很少的代码更改。     此前,计算机体系结构宗师 David Patterson 宣布加入谷歌 TPU 团队,并且表示谷歌没有解散团队,看来就是在为研发第二代 TPU。 Sundar Pichai 在演讲中提到,谷歌将免费开放 1000 台 Cloud TPU 供开发者和研究人员使用,并且推出了 TensorFlow Research Cloud。地址:https://www.tensorflow.org/tfrc/ 相信,TensorFlow 作为开源机器学习/深度学习框架,其受欢迎程度又会有一个明显的提升。     作为谷歌云的主管之一,李飞飞在随后的开发者Keynote上也介绍了谷歌的新TPU。她说,打造 AI 专业技能,是一项重要的投资。我加入谷歌正是出于这一原因,希望能保证每一个人都能利用AI,来保持自己的竞争力, 来解决对自己来说重要的问题。TPU只是其中的一部分。更多的是如何让计算整件事民主化。对于大多数人来说,谷歌云让这些难以获得的硬件资源变得可用了。 除了TPU,李飞飞还介绍了TensorFlow 研究云平台。下图有试用地址:     谷歌AI 大一统:Google.AI Sundar Pichai 在演讲中提到,谷歌将会把自己所有的AI相关事务集合到一个网站Google.AI 上。     他说,这一平台主要关注三件事:研究、工具和应用。 机器学习的自动化:AutoML     为了简化构建机器学习算法的概念,他们开发了 AutoML——一种能够帮助开发者构建自己的机器学习神经网络的模型,一种帮助机器“学习如何学习”的工具。 Google Assistant 可用于 iPhone     Google Assistant 很快可以在 iPhone 和 iPad 运行。Google Assistant 是谷歌在去年 I/O 大会首次公布的智能助理,此前仅能在 Google Home,Google Pixel 以及其他一些 Android 手机上使用。除了在苹果设备上可用外,谷歌还表示 Assistant 将加入多种不同语言,今年晚些时候起,可以使用法语,德语,巴西语,葡萄牙语以及日语。 Google Assistant 除了已有的回答你的问题,为你在网络上查找信息,以及帮助你完成例如任务等功能之外,本次 I/O 大会上,谷歌宣布了 Assistant 的更多功能:         对 Google Home 来说,Assistant 带来的最直接的变化是不需要用手控制,只需对它说一句“Ok Google”。以下是在 Home 使用 Google Assistant 的一些新功能: 此外,从今天开始,开发者能够为手机上的 Google Assistant 开发对话式 app。这意味着很快你就不仅能够在Google的产品上得到使用 Assistant,也可置入到其他的第三方服务。 Google Home 四大功能更新:可免费呼叫,推送视频信号 谷歌在 2016年 I / O 大会上首次推出了其智能家居设备 Google Home。 今年它更新了软件功能。 从美国开始,之后是英国(具体时间未定),这一智能家居设备将能够发送得到许可的 App 的推送通知。 同时,Google Home 也加入了免提电话的功能,可以用语音直接拨叫。拨叫将根据拨打电话人的语音个性化。 谷歌宣布 Google Home 将在美国和加拿大提供对手机或座机的免费呼叫服务。 这个功能有点儿像是亚马逊刚添加给 Echo 的——就是那个可以在 Alexa 设备中进行呼叫的功能——但这个确确实实是可以免费拨叫电话的。 谷歌说拨叫时将默认使用隐私号码,但如果你愿意,也可以将它改为你自己的号码。这一功能将在下月正式放出。 Google Home 还可以将内容(比如 YouTube 视频)推到连接了 Chromecast 的手机和电视上去。 谷歌更新了 Chromecast 设备,现在当你在 Google Home 音箱上寻求帮助时,会在连接的电视上看到视觉反馈。你同样可以基于语音,个性化这一体验。 Google Home 还将有个叫做“主动助理”的新功能,基本上来说,就是智能音箱将会给你推送基于日程表的交通信息警示。 Google Home 现在支持 Spotify、SoundCloud 以及蓝牙,同时也支持 HBO 等娱乐频道。 此前有评论指出,谷歌的智能家居策略现在有点奇怪:它在卖两个盒子,还希望您放置在家中的几个房间里——一个是 Google Wifi,另一个是 Google Home。多个 Google Home 盒子可以协同工作,让您在每个房间都可以播放音乐并使用语音命令,而多个 Google Wifi 盒也可以协同工作,为整个家庭提供强大的 Wi-Fi 信号。但是,与其在多个房间内放上两个谷歌盒子,不是单一的盒子更容易吗?因此有消息认为谷歌正在通过整合 Google Home / Google Wi-Fi盒子来解决这个问题。它将在一个盒子中整合扬声器、语音命令系统和 Wi-Fi 路由器,并将在此次大会上推出这一产品。但从首日现场情况来看,并没有相关消息。     今年夏天,Google Home 将在英国、加拿大、澳大利亚、法国、德国和日本发行。 分享更便利的Google Photos,有直播打赏功能的Youtube     谷歌还宣布,Google Photos 拥有 5 亿用户,现在他们可以更容易地分享照片了。不久这个 app 就可以帮助用户去掉模糊的照片,或复制、分享照片库(library)。分享的照片库可以被自动识别,比如说识别出用户孩子的照片,并与其配偶分享。     谷歌现场还展示了Youtube上的直播打赏功能——Super Chat。 VR与AR:谷歌也要有独立于手机之外的VR头盔了 谷歌正和联想及 HTC 合作打造无须手机的独立式 VR 头盔。这一头盔将于今年晚些时候发布。         另外,谷歌的AR功能将会被增加到Google Map上。 手机上的TensorFlow:TensorFlow Lite 安卓将迎来新的版本Android O。 当说到安卓的未来时,工程部副总裁 Dave Burke 宣布了 TensorFlow 的新版本,其专为手机做出优化,称为 TensorFlow Lite。这一新库将允许开发者构建用于在安卓智能手机上运行的深度学习模型。 TensorFlow Light 是为了安卓移动端设计的库,目标是运行快速(fast)并且轻量级(light),但同时也可以运行最先进的模型,比如卷积神经网络和 LSTM。其次,与之配套推出的还有一个新的安卓框架,加速硬件神经网络计算。TensorFlow Light 将利用新的神经网络 API,发掘特定加速器(silicon-specific accelerators)。此外,在不久后,谷歌会推出专门针对加速神经网络训练和推理的 DSP 。谷歌相信,这些新的性能和产品将驱动下一代的在移动设备本地进行语音处理、视觉搜索、AR 以及更多。TensorFlow Light 预计很快开源,而相关的神经网络 API 也将在今年稍后一些时间更新。 TensorFlow Lite 的推出显示了谷歌非常关心 AI 和移动设备的联系。在这一领域谷歌下一阶段的工作将是追求更适合的硬件,来最大化在现实世界中使用 TensorFlow lite 的好处。 观后感:略显乏味的I/O主旨演讲,期待更多 熬夜看完2017年的谷歌I/O大会主旨演讲,整个大会除了第二代TPU的发布外,整体来说亮点不多,或者说亮点不够亮。 Pichai 联系第二年强调从“手机为先”转到“AI为先”的理念,但是可以看到手机,特别是安卓在谷歌依然扮演着重要角色,其公布的几项较为震撼的用户量数据中,都跟安卓有关。 谷歌在I/O大会上的Demo展示,不管是 Google Lens 还是 Google Photos,效果平平,没有给人留下多大印象。Google Home 等也有点“老调重弹”的感觉。在VR和AR上的相关展示似乎是在为与竞争对手PK而推出的追随产品。   不过既然是一场开发者大会,更多的干货和内容可能还是隐藏在大大小小的Workshop和Officer 交流中。根据谷歌官方 I/O 大会的日程表,新智元整理了所有与 AI/ML 相关的内容。虽然为期三天的活动丰富得令人眼花缭乱,但提炼后并不难看出其中的重点,简而言之——TensorFlow。

    时间:2017-05-18 关键词: google 谷歌 英伟达 技术前沿 tpu

  • 谷歌推出第二代TPU:性能比传统CPU高出30倍

    谷歌推出第二代TPU:性能比传统CPU高出30倍

    在今天凌晨举行的谷歌I/O大会上,谷歌除了宣传了安卓8.0之外,更为重要的是着重谈到了人工智能,于是第二代TPU也就应运而生。TPU是谷歌自主研发的一种转为AI运算服务的高性能处理器,其第一代产品已经在AlphaGo这样的人工智能当中使用,主攻运算性能。   第二代TPU相比较于初代主要是加深了人工智能在学习和推理方面的能力,至于性能的话,全新的谷歌TPU可以达到180TFLOPs的浮点性能,和传统的GPU相比提升15倍,更是CPU浮点性能的30倍。 另外谷歌还推出了一款叫做TPU pod的运算阵列,最多可以包含64颗二代TPU,也就是说浮点性能可以达到惊人的11.5PFLOPS。 不知道未来最强人工智能电脑是谷歌的TPU还是Nvidia的HGX-1超级计算机。

    时间:2017-05-18 关键词: 谷歌 技术前沿 CPU tpu

  • 「2017 Google I/O大会」发布第二代机器学习TPU 2.0

    5月18日凌晨消息,Google CEO Sundar Pichai在I/O大会上正式公布了第二代TPU(TPU(Tensor Processing Unit)即张量处理单元,是一款为机器学习而定制的芯片,它能为机器学习提供比所有商用GPU和FPGA更高的量级指令。),又称Cloud TPU或TPU 2.0,这一基于云计算的硬件和软件系统,将继续支撑Google最前沿的人工智能技术。第一代TPU于去年发布,它被作为一种特定目的芯片而专为机器学习设计,并用在了AlphaGo的人工智能系统上,是其预测和决策等技术的基础。 随后,Google还将这一芯片用在了其服务的方方面面,比如每一次搜索都有用到TPU的计算能力,最近还用在了Google翻译、相册等软件背后的机器学习模型中。 今天凌晨,Google宣布第二代的TPU系统已经全面投入使用,并且已经部署在了Google Compute Engine平台上。它可用于图像和语音识别,机器翻译和机器人等领域。 新的TPU包括了四个芯片,每秒可处理180万亿次浮点运算。Google还找到一种方法,使用新的计算机网络将64个TPU组合到一起,升级为所谓的TPU Pods,可提供大约11500万亿次浮点运算能力。 强大的运算能力为Google提供了优于竞争对手的速度,和做实验的自由度。Google表示,公司新的大型翻译模型如果在32块性能最好的GPU上训练,需要一整天的时间,而八分之一个TPU Pod就能在6个小时内完成同样的任务。之所以开发新芯片,部分也是因为Google的机器翻译模型太大,无法如想要的那么快进行训练。 除了速度,第二代TPU最大的特色,是相比初代TPU它既可以用于训练神经网络,又可以用于推理。初代的TPU只能做推理,要依靠Google云来实时收集数据并产生结果,而训练过程还需要额外的资源。 机器学习的能力已经逐渐在消费级产品中体现出来,比如Google翻译几乎可以实时将英语句子变成中文,AlphaGo能以超人的熟练度玩围棋。所有这一切都要靠训练神经网络来完成,而这又需要计算能力。所以硬件越强大,得到的结果就越快。如果将每个实验的时间从几周缩短到几天或几个小时,就可以提高每个机器学习者快速迭代,并进行更多实验的能力。由于新一代TPU可以同时进行推理和训练,研究人员能比以前更快地部署AI实验。 过去十多年来,Google已经开发出很多新的数据中心硬件,其中包括服务器和网络设备,主要目的是扩张自己的在线帝国。而过去几年中,在AI方面Google也选择开发自己的硬件,为其软件做优化。神经网络是复杂的数学系统,通过分析大量数据来学习,这种系统从根本上改变了技术的构建和运行方式,影响范围也包括硬件。 在某种程度上,初代的TPU被设计来是为了更好地支持TensoFlow机器学习框架。而归功于Google在软硬件上的进步与集成,TensorFlow已经成为构建AI软件的领先平台之一。这种优化,再加上Google大脑及其DeepMind子公司的内部人才,正是Google在AI领域保持领先的部分原因。 芯片厂商NVidia的GPU几乎主宰了机器学习的市场,而现在,Google想通过专门设计用于训练神经网络的芯片,来改变市场提格局。 亚马逊和微软通过自己的云服务提供GPU处理,但他们不提供定制的AI芯片。 不过Google也不能因此而高枕无忧,因为短期内竞争就会加剧。目前已经有几家公司,包括芯片巨头英特尔和一大批初创公司,正在开发专门的AI芯片,它们都可能替代Google TPU。 首先开发出新的芯片并不能保证Google成功,要使用TPU 2.0,开发者要学习一种构建和运行神经网络的新方法。它不仅仅是一个新的芯片,TPU 2.0也是专门为TensorFlow设计。虽然Tensorflow是开源软件,但也有许多研究人员使用Torch和Caffe等类似的软件。新硬件需要新的软件优化,这需要不少时间。 在Google推出TPU 2.0的几周之前,Facebook的AI研究主管Yann LeCun质疑称,市场可能不需要新的AI专用芯片,因为研究者已经对使用GPU所需的工具非常熟悉了。新的硬件意味着新的生态系统。 另外,Google云服务的成功不仅取决于芯片的速度,以及使用的容易程度,还要考虑成本。所以,如果Google以比现有GPU服务更低的成本提供TPU服务,会得到更广泛的用户基础。 Google自己当然会使用新TPU系统,但也会将它的能力开放给其它公司使用。Google表示,不会将芯片直接出售,而是会通过其新的云服务(年底前公布)提供,任何开发者都可以使用新处理器带来的计算能力。 Google也重申了其对开源模式的承诺,表示会向同意发布研究结果的研究人员提供TPU资源,甚至可能开源代码。他甚至呼吁开发者加入TensorFlow Research Cloud计划,它会免费提供一组1000台TPU。 新TPU的速度优势肯定会吸引到不少研究人员,毕竟AI研究要在大量硬件上广泛试错。就此而言,Google愿意免费提供计算资源对全世界的AI研究者来说都是有好处的,当然,这对Google来说也是有好处的。

    时间:2017-05-18 关键词: 芯片 谷歌 机器学习 tpu

  • 人工智能下的TPU/NPU/CPU/GPU

    人工智能将推动新一轮计算革命,深度学习需要海量数据并行运算,传统计算架构无法支撑深度学习的大规模并行计算需求。因此,深度学习需要更适应此类算法的新的底层硬件来加速计算过程。   芯片也为响应人工智能和深度学习的需要,在速度和低能耗方面被提出了更高的要求,目前使用的 GPU、FPGA 均非人工智能定制芯片,天然存在局限性,除具有最明显的优势GPU外,也有不少典型人工智能专用芯片出现。 一、谷歌——TPU(Tensor Processing Unit)即谷歌的张量处理器     TPU是一款为机器学习而定制的芯片,经过了专门深度机器学习方面的训练,它有更高效能(每瓦计算能力)。大致上,相对于现在的处理器有7年的领先优势,宽容度更高,每秒在芯片中可以挤出更多的操作时间,使用更复杂和强大的机器学习模型,将之更快的部署,用户也会更加迅速地获得更智能的结果。 根据Google一位杰出硬件工程师Norm Jouppi在一篇部落格文章中的说法,该种加速器早在一年多前就运用于Google的数据中心:“TPU已经启动许多Google的应用,包括用以改善搜索引擎结果关联度的RankBrain,以及在街景服务(Street View)改善地图与导航的精确度与质量。” 谷歌专门为人工智能研发的TPU被疑将对GPU构成威胁。不过谷歌表示,其研发的TPU不会直接与英特尔或NVIDIA进行竞争。 二、中星微——中国首款嵌入式神经网络处理器(NPU)芯片     中星微在今年6月 20 日,率先推出中国首款嵌入式神经网络处理器(NPU)芯片,这是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片,并取名“星光智能一号”。这款基于深度学习的芯片运用在人脸识别上,最高能达到98%的准确率,超过人眼的识别率。该芯片于今年3月6日实现量产,目前出货量为十几万件。 NPU采用了“数据驱动”并行计算的架构,单颗NPU(28nm)能耗仅为400mW,极大地提升了计算能力与功耗的比例,可以广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。 三、英特尔——非传统意义上的英特尔处理器(CPU)     英特尔公司开发的第二代Xeon Phi处理器完美契合了人工智能的需求。Xeon Phi并非传统意义上的英特尔处理器(CPU),最新的Xeon Phi协处理器拥有多达72个内核,而且每个内核有两个用于提供更好的单核浮点运算性能的英特尔AVX-512 SIMD处理单元,所以这些处理器非常适合运行机器学习/深度学习工作任务。 四、人工智能风口下最受关注的还是要数GPU GPU 因其并行计算优势最先被引入深度学习,全球可编程图形处理技术的领军企业英伟达借此已开始打造新的计算平台。目前,包括谷歌、Facebook、微软等科技巨头公司在内的人工智能领域研究的领先者,已经在使用英伟达所提供的专门应用于该领域研究的芯片产品。 Facebook的人工智能硬件平台Big Sur就是依托Nvidia的GPU而打造的。GPU在人工智能中的应用十分广泛,因为这种芯片上搭载的处理核心数量多于Intel生产的传统处理器,使得它们十分适用于AI软件所需要的海量计算。“Big Sur”的设计特点是易于维修的主板,它装有8个NVIDIA的Tesla M40。 (1)GPU对于人工智能领域的意义又是什么呢?英伟达(NVIDIA)制造的图形处理器(GPU)专门用于在个人电脑、工作站、游戏机和一些移动设备上进行图像运算工作,是显示卡的“心脏”。该公司正从一家显卡供应商转变为人工智能服务器供应商。 GPU在“深度学习”领域发挥着巨大的作用,因为GPU可以平行处理大量琐碎信息。深度学习所依赖的是神经系统网络——与人类大脑神经高度相似的网络——而这种网络出现的目的,就是要在高速的状态下分析海量的数据。例如,如果你想要教会这种网络如何识别出猫的模样,你就要给它提供无数多的猫的图片。而GPU擅长的正是海量数据的快速处理。 对于人工智能和深度学习来说,目前硬件加速主要靠使用图形处理单元(GPU)集群作为通用计算图形处理单元(GPGPU)。 与传统的通用处理器(GPP)相比,GPU的核心计算能力要多出几个数量级,也更容易进行并行计算。尤其是英伟达的CUDA,作为最主流的GPGPU编写平台,各个主要的深度学习工具均用其来进行GPU 加速。 (2)GPU有什么优势呢?GPU最明显的优势是更快的处理速度,相比于CPU,GPU的一大优势是高速度。国内最好的人工智能硬件研究项目“寒武纪”小组的最新研究结果表明,GPU能够提供平均 58.82X 倍于CPU的速度。GPU的另一大优势,是它对能源的需求远远低于CPU。     最新款的专门用于人工智能研究领域的Tesla P100图形处理芯片,号称公司为这款GPU的研发投入了20亿美元。它可以执行深度学习神经网络任务,速度是英伟达之前高端系统的12倍,预计新产品将会极大推动机器学习的极限。 黄仁勋在4月初的发布会上表示,未来10年,人工智能市场总值约为5000亿美元。他表示,深度学习令我们的业绩加速增长。这是一种全新的计算模式,利用GPU的大规模处理能力来学习人工智能算法。它的普及正在席卷一个又一个行业,推动我们的图形处理器市场需求不断增长。

    时间:2016-07-25 关键词: npu CPU GPU tpu 人工智能

  • 从CPU、GPU再到TPU,谷歌的AI芯片是如何一步步进化过来的?

    Google I/O是由Google举行的网络开发者年会,讨论的焦点是用Google和开放网络技术开发网络应用。这个年会自2008年开始举办,到今年已经是举办的第9届了。 在今年的年会上,Google主要发布了以下8种产品:智能助手Google Assistant,与Amazon Echo竞争的无线扬声器和语音命令设备Google Home,消息应用Allo,视频呼叫应用Duo,VR平台Daydream,独立应用程序的支持Android Wear 2.0,允许不安装而使用应用的Android Instant Apps,以及允许在Chromebook上使用Android应用Google Play on Chrome OS。 而这8中产品主要都集中在了软件领域。 (Google I/O 2016现场图) 在Google I/O 2016的主题演讲进入尾声时,Google的CEO皮采提到了一项他们这段时间在AI和机器学习上取得的成果,一款叫做Tensor Processing Unit(张量处理单元)的处理器,简称TPU。在大会上皮采只是介绍了这款TPU的一些性能指标,并在随后的博客中公布了一些使用场景,并没有对这款处理器的架构以及内部的运作机制进行详细阐述,所以我们也许需要从一些常见的处理器的结构出发,试图猜测与探究下这款用于机器学习的专属芯片到底有着怎样的一个面孔。 (Tensor processing unit实物图 ) 首先我们先来看看我们最熟悉的中央处理器(Central Processing Unit),简称CPU。它是一种超大规模的集成芯片,而且是一种通用芯片,也就是说,它可以用它来做很多种类的事情。我们日常使用的电脑使用的处理器基本上都是CPU,看个电影、听个音乐、跑个代码,都没啥问题。 我们来看看CPU的结构 CPU主要包括运算器(ALU,Arithmetic and Logic Unit)和控制器(CU,Control Unit)两大部件。此外,还包括若干个寄存器和高速缓冲存储器及实现它们之间联系的数据、控制及状态的总线。从上面的叙述我们可以看出,CPU主要包含运算逻辑器件、寄存器部件以及控制部件等。 (CPU结构简化图) 从字面上我们也很好理解,运算逻辑器件主要执行算术运算、移位等操作,以及地址运算和转换;寄存器件主要用于保存运算中产生的数据以及指令等;控制器件则是负责对指令译码,并且发出为完成每条指令所要执行的各个操作的控制信号。 我们可以运用下面这张图来说明一条指令在CPU中执行的大致过程: (CPU执行指令图 ) CPU从程序计数器取到指令,通过指令总线将指令送至译码器,将转译后的指令交给时序发生器与操作控制器,然后运算器对数据进行计算,通过数据总线将数据存至数据缓存寄存器。 我们从CPU的结构以及执行过程可以看出,CPU遵循的是冯诺依曼架构,冯诺依曼的核心就是:存储程序,顺序执行。 从上面的描述我们可以看出,CPU就像一个有条不紊的管家,我们吩咐的事情总是一步一步来做。但是随着摩尔定律的推进以及人们对更大规模与更快处理速度的需求的增加,CPU好像执行起任务来就不那么令人满意了。于是人们就想,我们可不可以把好多个处理器放在同一块芯片上,让他们一起来做事,这样效率是不是就会高很多,这是GPU就诞生了。 GPU诞生了 GPU全称为Graphics Processing Unit,中文为图形处理器,就如它的名字一样,GPU最初是用在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上运行绘图运算工作的微处理器。因为对于处理图像数据来说,图像上的每一个像素点都有被处理的需要,这是一个相当大的数据,所以对于运算加速的需求图像处理领域最为强烈,GPU也就应运而生。 通过CPU与GPU结构上的对比我们可以看出,CPU功能模块很多,能适应复杂运算环境;GPU构成则相对简单,大部分晶体管主要用于构建控制电路(比如分支预测等)和Cache,只有少部分的晶体管来完成实际的运算工作。而GPU的控制相对简单,且对Cache的需求小,所以大部分晶体管可以组成各类专用电路、多条流水线,使得GPU的计算速度有了突破性的飞跃,拥有了更强大的处理浮点运算的能力。当前最顶级的CPU只有4核或者6核,模拟出8个或者12个处理线程来进行运算,但是普通级别的GPU就包含了成百上千个处理单元,高端的甚至更多,这对于多媒体计算中大量的重复处理过程有着天生的优势。 这就好比在画一幅画的时候CPU是用一支笔一笔一笔的来画,而GPU则是多支笔对不同的位置同时进行描绘,那自然效率就是突飞猛进的。 (英特尔CPU与英伟达GPU浮点运算性能对比图) 虽然GPU是为了图像处理而生的,但是我们通过前面的介绍可以发现,它在结构上并没有专门为图像服务的部件,只是对CPU的结构进行了优化与调整,所以现在GPU不仅可以在图像处理领域大显身手,它还被用来科学计算、密码破解、数值分析,海量数据处理(排序,Map-Reduce等),金融分析等需要大规模并行计算的领域。所以GPU也可以认为是一种较通用的芯片。 FPGA应运而生 随着人们的计算需求越来越专业化,人们希望有芯片可以更加符合我们的专业需求,但是考虑到硬件产品一旦成型便不可再更改这个特点,人们便开始想,我们可不可以生产一种芯片,让它硬件可编程。也就是说—— 这一刻我们需要一个比较适合对图像进行处理的硬件系统,下一刻我们需要一个对科学计算比较适合的硬件系统,但是我们又不希望焊两块板子,这个时候FPGA便应运而生。 FPGA是Field Programmable Gate Array的简称,中文全称为场效可编程逻辑闸阵列,它是作为专用集成电路领域中的一种半定制电路而出现的,既解决了全定制电路的不足,又克服了原有可编程逻辑器件门电路数有限的缺点。 FPGA运用硬件描述语言(Verilog或VHDL)描述逻辑电路,可以利用逻辑综合和布局、布线工具软件,快速地烧录至FPGA上进行测试。人们可以根据需要,通过可编辑的连接,把FPGA内部的逻辑块连接起来。这就好像一个电路试验板被放在了一个芯片里。一个出厂后的成品FPGA的逻辑块和连接可以按照设计者的需要而改变,所以FPGA可以完成所需要的逻辑功能。 (FPGA结构简图) FPGA这种硬件可编程的特点使得其一经推出就受到了很大的欢迎,许多ASIC(专用集成电路)就被FPGA所取代。这里需要说明一下ASIC是什么。ASIC是指依产品需求不同而定制化的特殊规格集成电路,由特定使用者要求和特定电子系统的需要而设计、制造。这里之所以特殊说明是因为我们下面介绍的TPU也算是一种ASIC。 FPGA与ASIC芯片各有缺点,FPGA一般来说比ASIC的速度要慢,而且无法完成更复杂的设计,并且会消耗更多的电能;而ASIC的生产成本很高,如果出货量较小,则采用ASIC在经济上不太实惠。但是如果某一种需求开始增大之后, ASIC的出货量开始增加,那么某一种专用集成电路的诞生也就是一种历史趋势了,我认为这也是Google生产Tensor processing unit的一个重要出发点。至此,TPU便登上历史舞台。 随着机器学习算法越来越多的应用在各个领域并表现出优越的性能,例如街景、邮件智能回复、声音搜索等,对于机器学习算法硬件上的支持也越来越成为一种需要。目前很多的机器学习以及图像处理算法大部分都跑在GPU与FPGA上面,但是通过上面的讲述我们可以知道,这两种芯片都还是一种通用性芯片,所以在效能与功耗上还是不能更紧密的适配机器学习算法,而且Google一直坚信伟大的软件将在伟大的硬件的帮助下更加大放异彩,所以Google便在想,我们可不可以做出一款专用机机器学习算法的专用芯片,TPU便诞生了。 (TPU板卡图) Google想做一款专用机机器学习算法的专用芯片——TPU 从名字上我们可以看出,TPU的灵感来源于Google开源深度学习框架TensorFlow,所以目前TPU还是只在Google内部使用的一种芯片。 Google其实已经在它内部的数据中心跑TPU跑了一年多了,性能指标杠杠的,大概将硬件性能提升了7年的发展时间,约为摩尔定律的3代。对于性能来说,限制处理器速度的最大两个因素是发热与逻辑门的延迟,其中发热是限制速度最主要的因素。现在的处理器大部分使用的是CMOS技术,每一个时钟周期都会产生能量耗散,所以速度越快,热量就越大。下面是一张CPU时钟频率与能量消耗的关系,我们可以看到,增长是指数性的。 (CPU时钟频率与功耗关系图 ) 从TPU的外观图我们可以看出,其中间突出一块很大的金属片,这便是为了可以很好地对TPU高速运算是产生大量的热进行耗散。 TPU的高性能还来源于对于低运算精度的容忍,也就是说每一步操作TPU将会需要更少的晶体管。在晶体管总容量不变的情况下,我们就可以单位时间在这些晶体管上运行更多的操作,这样我们就可以以更快的速度通过使用更加复杂与强大的机器学习算法得到更加智能的结果。我们在TPU的板子上看到了插条,所以目前Google使用TPU的方式是将载有TPU的板子插在数据中心机柜的硬盘驱动器插槽里来使用。 而且我觉得TPU的高性能还来源于它数据的本地化。对于GPU,从存储器中取指令与数据将耗费大量的时间,但是机器学习大部分时间并不需要从全局缓存中取数据,所以在结构上设计的更加本地化也加速了TPU的运行速度。 (AlphaGo对战李世乭比赛中使用的载有TPU的服务器机架,不知道为什么侧面贴的围棋图有种萌感。) 在Google数据中心的这一年来,TPU其实已经干了很多事情了,例如机器学习人工智能系统RankBrain,它是用来帮助Google处理搜索结果并为用户提供更加相关搜索结果的;还有街景Street View,用来提高地图与导航的准确性的;当然还有下围棋的计算机程序AlphaGo,其实这一点上也有个很有趣的地方,我们在描述AlphaGo的那篇Nature文章中看到,AlphaGo只是跑在CPU+GPUs上,文章中说AlphaGo的完整版本使用了40个搜索线程,跑在48块CPU和8块GPU上,AlphaGo的分布式版本则利用了更多的机器,40个搜索线程跑在1202个CPU和176块GPU上。这个配置是和樊麾比赛时使用的,所以当时李世乭看到AlphaGo与樊麾的对弈过程后对人机大战很有信心。但是就在短短的几个月时间,Google就把运行AlphaGo的硬件平台换成了TPU,然后对战的局势就艰难了起来。 那么除了TPU可以更好更快地运行机器学习算法,Google发布它还有什么其他目的。我觉得说的玄幻一些,Google也许在下一盘大棋。 Google说他们的目标是在工业界的机器学习方面起到先锋带头作用,并使得这种创新的力量惠及每一位用户,并且让用户更好地使用TensorFlow 和 Cloud Machine Learning。其实就像微软为它的HoloLens增强现实头显配备了全息处理单元(holographic processing unit,HPU),像TPU这样的专业硬件只是它远大征程的一小步,不仅仅是想让自己在公共云领域超过市场老大Amazon Web Services (AWS)。随着时间的推移,Google会放出更多的机器学习API,现在Google已经推出了云机器学习平台服务和视觉API,我们可以相信,做机器学习技术与市场的leader才是Google更大的目标。

    时间:2016-05-31 关键词: 谷歌 ai芯片 CPU GPU tpu

首页  上一页  1 2 下一页 尾页
发布文章

技术子站