2020 Intel架构日——多维创新诚意满满、未来可期

[导读]8月13日，Intel一年一度的架构日再次到来。而此次架构日上，Intel可谓诚意满满，不仅带来了Xe显卡的更多消息，也从工艺、架构、封装、异构计算和软件等多个维度展示了Intel一年来的创新成果。显然，即便经历了外界的种种质疑，Intel在这次架构日上锁展示的技

8月13日，Intel一年一度的架构日再次到来。而此次架构日上，Intel可谓诚意满满，不仅带来了Xe显卡的更多消息，也从工艺、架构、封装、异构计算和软件等多个维度展示了Intel一年来的创新成果。显然，即便经历了外界的种种质疑，Intel在这次架构日上锁展示的技术和成果仍旧足以领行业侧目。

10nm的最佳拍档——SuperFin

早在22nm时代，Intel就率先采用了FinFET 3D晶体管技术，通过在垂直方向上布置晶体管来减少芯片面积，并取得了非常好的效果。时至今日，FinFET及其改进版已伴随Intel走过了7年多的时间。虽然Intel曾宣称，FinFETch将延续至5nm时代，但伴随Intel半导体制造工艺进展的加速，全新的晶体管技术已经箭在弦上。

在下一代10nm芯片TigerLake上，Intel将应用全新的半导体技术SuperFET。

SuperFET由两部分组成，分别是超级电容SuperMIM和改进版的FinFET。

SuperMIM超级电容能够提供5倍的容量，并将电容的通孔电阻降低30%。而在栅极处，Intel则使用了全新的HI-K介质。相对于之前的介质，新的HI-K介质厚度仅有几个埃（一种厚度单位，1埃=0.1nm）；Intel将采用新HI-K介质构成的栅极称为“超级晶格”。

作为SuperFET的另一大组成部分，改进FinFET包含了三处进化：提供更高流动性的晶体管Gate工艺；增加了Gate之间的间距，可以承载更高的驱动电压；改进的晶体管源极和漏级，能够降低电阻、增加应变。

当然，两种技术组合之后最直观的效果便是能够增加晶体管自身的性能。按照Intel的计算，相对于目前14nm上使用的改进版FinFET，新的SuperFIN能够提升晶体管性能17%左右。

同时，Intel还规划了改进版的SuperFIN技术，但并未公布其具体应用时间。

先进封装技术，开启SoC更多可能

在2019年的封装技术展示中，Intel对外介绍了Foveros3D封装技术。他能够在横向和纵向两个维度允许晶片（Die）进行堆叠。

在实际应用中，随着晶片性能和功耗的提升，晶片上也必须安装更多的触点。而当芯片开始进行3D堆叠，在很多情况下，上层晶片能够用于安装触点的面积也将被极大压缩。显然，提升触点的密度并提升单个触点所能承载的电流将改善这一问题。

而这正是IntelHybrid Bonding技术的关键所在。

相对于目前正在使用的Foveros技术，新的HybridBonding能够将触点兼具从50微米降低至10微米，由此，触点密度也将从400每平方毫米直接提升至10000每平方毫米。

配合ODI、Co-EMIB等技术，3D封装的SoC将在能效、内部互联性能和扩展性等方面登上一个新的台阶。

除了10nm和SuperFIN……

对于9月初即将发布的TigerLake，Intel也在本次的架构日上进行了更详尽的说明。

除了将采用10nm工艺和SuperFin晶体管技术之外，TigerLake最大的特色在于使用了专为前两者适配的WillowCove核心架构。

WillowCove使用了重新设计的缓存架构，并将其引入到更大的非相容1.25MBMLC中，并通过英特尔控制流强制技术（ControlFlow Enforcement Technology）增强了安全性。

当然，抛开这些比较玄妙的用词，Intel还给出了比较直观的对比：

这张图很能说明问题。相对于目前的SunnyCove微架构，新的WillowCove能够以更低的驱动电压达到相同的频率。

另外，WillowCove还能够提供更大的频率和电压动态范围。换句话说，就是更高和更低的睿频上下限，进而适应不同的工作场景，进一步提升笔记本的能效（是的，TigerLake是一款面向移动领域的处理器产品，而且分为能效版和性能版，对应了目前的低压处理器和标压处理器）。

此外，WillowCove还有一大堆的新特性：

Xe图形架构：具有高达96个执行单元（EUs），每瓦性能效率显著提高

电源管理：一致性结构中的自主动态电压频率调整（DVFS），提高了全集成电压稳压器（FIVR）效率

结构和内存：一致性结构带宽增加2倍，约86GB/s内存带宽，经验证的LP4x-4267、DDR4-3200；LP5-5400架构功能 

高斯网络加速器GNA2.0专用IP：用于低功耗神经推理计算，减轻CPU处理。运行音频噪音抑制工作负载情况下，采用GNA推理计算的CPU利用率比不采用GNA的CPU低20%

IO：集成TB4/USB4，CPU上集成PCIeGen 4，用于低延迟、高带宽设备对内存的访问

显示：高达 64GB/s的同步传输带宽用于支持多个高分辨率显示器。到内存的专用结构路径，以保持服务质量 

IPU6：多达6个传感器，具有4K30帧视频、27MP像素图像；最高4K90帧和42MP像素图像架构功能

Xe图形架构，AI时代的Intel大杀器

2019年HPC大会，Intel首次对外谈及了Xe图形架构。而相对于十多年前的LarraBee，这次Intel信心满满、志在必得。

Intel共规划了4中Xe核心，分别是集成于CPU内的XeLP，面向低功耗市场；以独立显卡存在的XeHPG，面向主流游戏市场；以计算卡形式存在的XeHP，面向数据中心及AI市场；面向HPC市场的XeHPC。

所有的Xe系列细分产品都基于上图这套基础架构，面向不同市场的产品则通过这一架构的不断复制和堆叠来进行性能扩展。当然，这就会用到前面提到的各类封装技术。（这里不得不为Intel的配色点个赞，架构示意图看起来非常的“豪横”）

基础的XeLP架构包含6个SubSlice（相当于NVIDIA架构中的SM），每个SubSlice包含16个EU（相当于NVIDIA架构中的Core）并配备一组独立的L1数据缓存。这样一个基础的XeLP Slice架构便包含了96个EU单元。而整个Slice则共享16MBL3缓存。

96个EU单元每时钟周期可以提供1536次浮点运算；6个SAMPLER每时钟周期则可以处理48个纹理贴图；3组像素backend（每两组SubSlice共用一组像素backend）每时钟周期则可以处理24个像素。

EU内部架构

从架构的形态来看，Xe与目前主流的GPU设计思路非常相似，采用大型EU单元和流水线架构；并以此为核心布置各类功能性Engine。

在AI性能上，新的XeGPU显然针对常用的FP16/8和Int16/8进行了特别优化，能够随数据精度的降低而线性增长。当然，在消费类应用中，Intel也针对游戏、影音等应用进行了众多细节上的优化。

通过Slice架构的不断堆叠，Intel可以满足不同应用场景对异构算力的需求。而这张幻灯片则表明了不同数量堆叠所用到的封装技术。最高级的4Slice堆叠（也就是Xe HPC）会用到2.5D封装技术Co-EMIB和Foveros。

显然，即FPGA之后，Intel芯片堆叠技术已经日臻成熟，并开始能够在更广泛的商用市场中进行产品化部署。按照Intel的说法，这是业界首个多区块、高可扩展性的高性能架构。

另外，面向AI市场的XeHP将首先上线Intel的DevCloud，届时开发者可以注册并上线体验。

数据中心市场，Ice Lake千呼万唤

Ice Lake基于10nm工艺制造，预期将于2020年底推出。

按照Intel在架构日上的展示：

IceLake产品将在跨工作负载的吞吐量和响应能力方面提供强劲性能。它将带来一系列技术，包括全内存加密、PCIeGen 4、8个内存通道等，以及可加快密码运算速度的增强指令集。IceLake系列中也会推出针对网络存储和物联网的变体。

而在IceLake之后则是全新的SapphireRapids，DDR5、PCI-E5.0和Intel主导的ComputeExpress Link总线都会出现。

SapphireRapids是英特尔基于增强型SuperFin技术的下一代至强可扩展处理器，将提供领先的行业标准技术，包括DDR5、PCIeGen 5、ComputeExpress Link 1.1等。SapphireRapids将是美国阿贡国家实验室“极光”超级计算机系统（AuroraExascale）中使用的CPU，它将延续英特尔的内置人工智能加速策略，使用一种名为先进的矩阵扩展（AMX）的新加速器。SapphireRapids预计将于2021年下半年开始首批生产发货。

one API即将迎来Gold版

随着GPU、FPGA、ASIC、eASIC等产品线的成果逐渐丰富，Intel的计算产品线也越来越长，而架构之间的差异也很大。

为了弥补异构计算所带来的算力调用复杂问题，Intel提出了oneAPI计划，计划利用统一的API和开发环境来让开发者轻松调用各类计算资源，把程序员从“一次开发，到处调试”的深渊中解放出来。当然，这也能够让用户在训练和推理阶段使用不同的架构来完成，进一步降低AI应用所需的资金成本。

在此次架构日上，Intel表示，产品化的oneAPI将于今年晚些时候面市，而且，上市即是Gold版本。

与Xe HP相同，oneAPI的Gold版将首先上线IntelDevCloud。届时开发者可以在其中体验XeHP和oneAPI组合的威力。

小芯片，大未来

EPYC的成功带火了ChipLets概念。而现在，Intel则更进一步。

这两张幻灯片清晰的展示了Intel的想法——将SoC的细粒度进一步提升；将以前按照功能性来组合的思路转变为按照IP来进行组合。Intel将这一设计思路称为——分解设计法。

相对于过去的芯片整体设计思路，分解设计法的好处很明显——可以提升芯片设计的效率，降低产品化时间，并且能够有效减少复杂设计所带来的的Bug问题。

当然，这样的大量晶片堆叠需要更好的片上互联和堆叠技术。但在看到了Intel的Fevoros、EMIB、Co-EMIB、IDO和HybridBonding等技术逐渐走向成熟之后，这些问题应该都“不是事儿”。

见微知著，Intel的大计划

除了上述的重点内容之外，Intel在六大支柱方面均有不同程度的创新。2020架构日，Intel的创新看点众多，足见诚意满满。