透过英伟达和AMD看显卡是如何进化的！

时间：2018-08-07 16:18:05

关键字： AMD 英伟达

手机看文章

扫描二维码
随时随地手机看文章

[导读]靠游戏显卡发家的 NVIDIA，怎么就成了「人工智能」界的领头羊呢?

显卡(Video card，Graphics card)全称显示接口卡，又称显示适配器，是计算机最基本配置、最重要的配件之一。显卡作为电脑主机里的一个重要组成部分，是电脑进行数模信号转换的设备，承担输出显示图形的任务。显卡接在电脑主板上，它将电脑的数字信号转换成模拟信号让显示器显示出来，同时显卡还是有图像处理能力，可协助CPU工作，提高整体的运行速度。对于从事专业图形设计的人来说显卡非常重要。民用和军用显卡图形芯片供应商主要包括AMD(超微半导体)和Nvidia(英伟达)2家。

如果你喜欢用电脑玩游戏，那么对 NVIDIA(英伟达)这个名字肯定不会陌生，NVIDIA 研发的旗舰级游戏显卡，性能强大，发热量惊人，有「核弹」之称。随着人工智能的兴起，NVIDIA 的 CEO 黄仁勋(Jen-Hsun Huang)却反复强调：显卡公司NVIDIA 是一家人工智能公司!

2014 年，NVIDIA 的股价还在 25 美元附近徘徊，到了今天，NVIDIA 的股价却已经飙到了 96 美元，翻了近 4 倍!堪称美国科技界的一只「妖股」。

靠游戏显卡发家的 NVIDIA，怎么就成了「人工智能」界的领头羊呢?

险些夭折的NVIDIA

创建 NVIDIA 之前，黄仁勋曾经是 AMD 公司的芯片设计师，那时候的他或许想不到，二十年后，自己创立的公司会成为老东家最强劲的竞争对手。

在 AMD 公司，黄仁勋打下了结实的技术基础，之后他又跳槽到了芯片公司 LSI-Logic，在那里，黄仁勋完成了从技术岗到销售岗的转型。1993 年，三十而立的黄仁勋和两位好友共同创建了 NVIDIA，主攻当时仍处在萌芽阶段的图形芯片市场。

NVIDIA 做的第一件大事，就是花两年时间研发了一款与市面上所有图形芯片都不同的产品——NV1，其集成了显卡、声卡、手柄驱动等多种功能，瞄准的并不是 PC 市场，而是游戏主机。

可惜，NVIDIA 倾尽全力研发出来的第一款产品，却始终没有打进主流游戏市场，NVIDIA 花光了投资，几近破产。

在走投无路之际，游戏公司世嘉伸出了援手——当时世嘉正在开发新一代的主机「土星」，他们认为 NVIDIA 芯片的高集成度能够更好地在游戏机上发挥性能，因此投入了 700 万美金支持 NVIDIA 研发新一代的产品。

世嘉土星游戏主机

重新定义「显卡」

虽然世嘉跟 NVIDIA 的合作最终没有成功，研发中的 NV2 芯片也因此流产，但靠着这 700 万美金，黄仁勋终于摸到了市场的脉象——当时微软发布了 Direct X 接口，可市面上支持这一标准的图像芯片却寥寥无几，所有的图像芯片厂商都在忙着推广自己的接口。

黄仁勋决定，放弃部分已有的专利，转而全面支持微软的 Direct X 接口。同时，NVIDIA 全面提升了开发速度，每六个月就研发一款新产品。

转型后的 NVIDIA 推出了 Riva 128 芯片，不仅性能足够强大，而且造价也要比同类产品低廉不少，加上对 Direct X 的良好支持，成为不少 ODM 厂商的首选。

NVIDIA Riva 128 图形芯片

之后，找对产品思路的 NVIDIA 开始奋起直追，于 1999 年推出了世界上首款 GPU(Graphics Processing Unit，图形处理器)GeForce 256，与同时代的其他图像芯片相比，GeForce 256 的创新之处在于，大大减少了对 CPU 的依赖，强化了对 3D 图像的渲染功能，性能上远远地甩开了同期的对手。

得益于 GeForce 256 的出色表现，NVIDIA 拿到了微软 Xbox 游戏机的订单，辗转多年以后，NVIDIA 又回到了他们最初想攻占的游戏机市场。

浮夸的 GeForce 256 包装，凸显其强大的性能

从显卡到人工智能

其实，黄仁勋一直都知道，NVIDIA 的 GPU 绝不只是为电子游戏服务的，但是让他想不到的是，GPU 居然还能在「深度学习」领域大放异彩。

「深度学习」是人工智能的关键，从 20 世纪 60 年代至今，「深度学习」领域一直没有巨大突破的原因在于：

需要足够庞大的数据量

需要足够廉价的计算能力

互联网的普及让数据前所未有地庞大，而且每个人都能轻易地接触到大量的数据，可是这么多年过去了，计算机的算力依旧不够强大。

2006 年，为了减少开发者的负担，NVIDIA 发布了一个名为 CUDA 的编程工具，开发者们通过这套工具，可以轻松地让 GPU 同时对画面上的每一个像素进行编程，让他们完成一些简单的渲染工作——这样一来，开发者就无须不胜其烦地重复写代码了。

同样，利用这一原理，深度学习的研究者们也可以利用 GPU 来完成大量低级计算，从而大大提升人工智能的计算能力。在世界范围内，大约有 3000 家人工智能公司通过 NVIDIA 的芯片来满足他们对人工智能的需求，其中不乏亚马逊、谷歌、微软等科技巨头。

NVIDIA GPU 深度学习原理图示

对于「深度学习」，黄仁勋是这样理解的：

深度学习就像人脑一样，你几乎可以教会它任何东西，但它有个巨大的障碍：需要庞大的计算量，这跟我们的 GPU 的运算模式几乎是一致的。

尽管 NVIDIA 的主营业务仍是显卡，2017 财年第三季度，图形芯片部门的营收占其总营收的 85%;但得益于人工智能领域的发展，NVIDIA 的汽车业务增长迅速，同比增长 60.8%，最新推出的车载电脑 DRIVE PX 2 更是被用到了特斯拉的电动汽车当中，发展前景十分可观。

黄仁勋与特斯拉电动汽车

人工智能带着显卡厂家一起装逼一起飞了。那么我们来看看，显卡的前世今生。

原来的显卡是什么?

显卡的工作非常复杂，但其原理和部件很容易理解。在本文中，我们先来了解显卡的基本部件和它们的作用。此外，我们还将考察那些共同发挥作用以使显卡能够快速、高效工作的因素。

显示卡(videocard)是系统必备的装置，它负责将CPU送来的影像资料(data)处理成显示器(monitor)可以了解的格式，再送到显示屏(screen)上形成影像。它是我们从电脑获取资讯最重要的管道。因此显示卡及显示器是电脑最重要的部份之一。我们在监视器上看到的图像是由很多个小点组成的，这些小点称为“像素”。在最常用的分辨率设置下，屏幕显示一百多万个像素，电脑必须决定如何处理每个像素，以便生成图像。为此，它需要一位“翻译”，负责从CPU获得二进制数据，然后将这些数据转换成人眼可以看到的图像。除非电脑的主板内置了图形功能，否则这一转换是在显卡上进行的。我们都知道，计算机是二进制的，也就是0和1，但是总不见的直接在显示器上输出0和1，所以就有了显卡，将这些0和1转换成图像显示出来。

早期，显卡计算能力不行，3D的数据处理不过来。古墓丽影中，劳拉的屁股是方的。

显卡的主要部件是：主板连接设备、监视器连接设备、处理器和内存。不同显卡的工作原理基本相同CPU与软件应用程序协同工作，以便将有关图像的信息发送到显卡。显卡决定如何使用屏幕上的像素来生成图像。之后，它通过线缆将这些信息发送到监视器。

显卡的演变自从IBM于1981年推出第一块显卡以来，显卡已经有了很大改进。第一块显卡称为单色显示适配器(MDA)，只能在黑色屏幕上显示绿色或白色文本。而现在，新型显卡的最低标准是视频图形阵列(VGA)，它能显示256种颜色。通过像量子扩展图矩阵(QuantumExtendedGraphicsArray，QXGA)这样的高性能标准，显卡可以在最高达2040x1536像素的分辨率下显示数百万种颜色。

根据二进制数据生成图像是一个很费力的过程。为了生成三维图像，显卡首先要用直线创建一个线框。然后，它对图像进行光栅化处理(填充剩余的像素)。此外，显卡还需添加明暗光线、纹理和颜色。对于快节奏的游戏，电脑每秒钟必须执行此过程约60次。如果没有显卡来执行必要的计算，则电脑将无法承担如此大的工作负荷。

显卡工作的四个主要部件

显卡在完成工作的时候主要靠四个部件协调来完成工作，主板连接设备，用于传输数据和供电，处理器用于决定如何处理屏幕上的每个像素，内存用于存放有关每个像素的信息以及暂时存储已完成的图像，监视器连接设备便于我们查看最终结果。

处理器和内存

像主板一样，显卡也是装有处理器和RAM的印刷电路板。此外，它还具有输入/输出系统(BIOS)芯片，该芯片用于存储显卡的设置以及在启动时对内存、输入和输出执行诊断。显卡的处理器称为图形处理单元(GPU)，它与电脑的CPU类似。但是，GPU是专为执行复杂的数学和几何计算而设计的，这些计算是图形渲染所必需的。某些最快速的GPU所具有的晶体管数甚至超过了普通CPU。GPU会产生大量热量，所以它的上方通常安装有散热器或风扇。

除了其处理能力以外，GPU还使用特殊的程序设计来帮助自己分析和使用数据。市场上的绝大多数GPU都是AMD和NV生产的，并且这两家公司都开发出了自己的GPU性能增强功能。为了提高图像质量，这些处理器使用全景抗锯齿技术，它能让三维物体的边缘变得平滑，以及各向异性过滤，它能使图像看上去更加鲜明。

GPU在生成图像时，需要有个地方能存放信息和已完成的图像。这正是显卡RAM用途所在，它用于存储有关每个像素的数据、每个像素的颜色及其在屏幕上的位置。有一部分RAM还可以起到帧缓冲器的作用，这意味着它将保存已完成的图像，直到显示它们。通常，显卡RAM以非常高的速度运行，且采取双端口设计，这意味着系统可以同时对其进行读取和写入操作。

RAM直接连接到数模转换器，即DAC。这个转换器也称为RAMDAC，用于将图像转换成监视器可以使用的模拟信号。有些显卡具有多个RAMDAC，这可以提高性能及支持多台监视器。

显卡输入和输出

ADC连接器苹果公司曾经制造过使用专利产品AppleDisplayConnector(ADC)的监视器。尽管这些监视器目前仍在使用，但苹果公司新出的监视器已改为使用DVI连接设备。显卡通过主板连接到电脑主板为显卡供电，并使其可以与CPU通信。对于较高端的显卡，主板所提供的电能往往不足，所以显卡还直接连接到电脑的电源。

显卡与主板的连接通常是借助外设部件互连(PCI)、高级图形端口(AGP)、PCIExpress(PCIe)等三种接口接口来实现的，在这三种接口中，PCIExpress是最新型的接口，它能在显卡和主板之间提供最快的传输速率。此外，PCIe还支持在一台电脑中使用多块显卡。

上图中，挖比特币的矿机，插满了显卡。

大多数人仅使用他们具有的两种监视器连接设备中的一种。需要使用两台监视器的用户可以购买具有双头输出功能的显卡，它能将画面分割并显示到两个屏幕上。理论上，如果电脑配有两块具有双头输出功能且提供PCIe接口的显卡，则它能够支持四台监视器。除了用于主板和监视器的连接设备以外，有些显卡还具有用于以下用途的连接设备：电视显示：电视输出或S-Video、模拟摄像机：ViVo(视频输入/视频输出、数码相机：火线或USB有些显卡还自带了电视调谐器。HDMI、DP逐步成为发烧级显卡的主流配置。

1.复合视频信号：一般接头为BNC、RCA(莲花头)

75代表抗阻性,后面的3和5代表它的绝缘外径(3mm/5mm)。视频线分：

75-3传输距离约200米;75-5传输距离约500米;75-7传速距离约500--800米);75-9传速距离约1000---1500米;75-12传速距离约2000----3500米。

2、S-端子(或称 Y/C)

它的学名叫做“二分量视频接口”，俗称S端子，传输距离短 15米。

S-Video连接规格是由日本人开发的一种规格，S指的是“SEPARATE(分离)”，它将亮度和色度分离输出，避免了混合视讯讯号输出时亮度和色度的相互干扰。S接口实际上是一种五芯接口，由两路视亮度信号、两路视频色度信号和一路公共屏蔽地线共五条芯线组成。

同AV接口相比，由于它不再进行Y/C混合传输，因此也就无需再进行亮色分离和解码工作，而且使用各自独立的传输通道在很大程度上避免了视频设备内信号串扰而产生的图像失真，极大地提高了图像的清晰度。但S-Video仍要将两路色差信号(Cr Cb)混合为一路色度信号C，进行传输然后再在显示设备内解码为Cb和Cr进行处理，这样多少仍会带来一定信号损失而产生失真(这种失真很小但在严格的广播级视频设备下进行测试时仍能发现)。而且由于Cr Cb的混合导致色度信号的带宽也有一定的限制，所以S-Video虽然已经比较优秀，但离完美还相去甚远。S-Video虽不是最好的，但考虑到目前的市场状况和综合成本等其它因素，它还是应用最普遍的视频接口之一。

3、VGA信号

VGA(Video Graphics Array)是IBM在1987年随PS/2机一起推出的一种视频传输标准，具有分辨率高、显示速率快、颜色丰富等优点，在彩色显示器领域得到了广泛的应用，但易衰减，传输距离短，易受干扰。其3+4/6VGA的传输距离是15-30M。

4、分量视频(RGBHV 信号)

色差接口是在S接口的基础上，把色度(C)信号里的蓝色差(b)、红色差(r)分开发送，其分辨率可达到600线以上。它通常采用YPbPr和YCbCr两种标识，前者表示逐行扫描色差输出，后者表示隔行扫描色差输出。现在很多电视类产品都是靠色差输入来提高输入讯号品质，而且透过色差接口，可以输入多种等级讯号，从最基本的480i到倍频扫描的480p，甚至720p、1080i等等，都是要通过色差输入才有办法将信号传送到电视当中。75-2RGB的传输距离是30-50M，75-3RGB的传输距离是50-70M。

5、DVI

DVI-A(Analog，模拟)接口：这种接口实际上就是VGA接口的变形，以前多用于一些高端CRT显示器上，不过现在已经基本淘汰。我们常说的“假DVI接口”就是指的DVI-A，原因在于它传输的依然是模拟信号，而不是体现出DVI技术优势的数字信号。

DVI-D(Digital，数字)接口：DVI-D是真正意义上的数字信号接口，这是它比DVI-A更先进的地方;不过DVI-D接口也有不足，那就是用户使用该接口时无法兼容老式的CRT显示器，如果碰巧液晶显示器上也只有D-Sub接口，那用户就只有干瞪眼的份儿了。

DVI-I(Integrated，集成)接口：这是一种集DVI-A和DVI-D大成于一身的混合式接口，它既可以兼容DVI-D又可以兼容DVI-A(通过转接头还可以转接为D-Sub)，是目前兼容性最好的DVI接口

一般来说，在传输1600×1200@60Hz以下的视频信号时，使用单通道DVI和双通道DVI没有明显的差别。如果你的显示器可以支持Full HD(1920×1080)或以上的分辨率，就不要选择单通道的DVI数据线了。DVI-D只能接收数字信号;DVI-I能同时接收数字信号和模拟信号，传输距离短，为7-15M。

6、HDMI

使用与DVI数字信号相同的底层协议，所以还可以通过转接头与DVI信号实现互换，兼容DVI信号。比DVI接口更强大的是，HDMI在制定通讯协议的时候，允许通过HDMI线缆实现高保真音频信号的传输，无缝化连接减少了连线的麻烦，也让HDMI具有更广泛的兼容性。支持5Gbps的数据传输率，最远可传输15米。

与DVI相比，HDMI可以传输数字音频信号，并增加了对HDCP的支持，同时提供了更好的DDC可选功能。HDMI支持5Gbps的数据传输率，最远可传输15米，足以应付一个1080p的视频和一个8声道的音频信号。而因为一个1080p的视频和一个8声道的音频信号需求少于4GB/s，因此HDMI还有很大余量。这允许它可以用一个电缆分别连接DVD播放器，接收器和PRR。此外HDMI支持EDID、DDC2B，因此具有HDMI的设备具有“即插即用”的特点，信号源和显示设备之间会自动进行“协商”，自动选择最合适的视频/音频格式。

7、DP

DisplayPort也是一种高清数字显示接口标准，可以连接电脑和显示器，也可以连接电脑和家庭影院。2006年5月，视频电子标准协会(VESA)确定了1.0版标准，2008年升级到1.1版，提供了对HDCP的支持。1.3版将总带宽提升到了32.4Gbps(4.05GB/s)，四条通道各自分配8.1Gbps。DisplayPort赢得了AMD、Intel、NVIDIA、戴尔、惠普、联想、飞利浦、三星、aoc等业界巨头的支持，而且它是免费使用的。

AMD多屏拼接技术必须要DisplayPort接口。AMD在其HD5000系列显卡中，支持了AMD最新发布的多屏拼接显示技术。其中以三屏拼接为例，AMD的HD5000系列显卡上设计有DisplayPort接口，用户需要通过DisplayPort数据线与支持此接口的显示设备进行连接，成为三屏拼接显示的主显示器，并且必须是DisplayPort接口直接连接，不能经过任何形式的转换。因此对于显示发烧用户而言，它们对于能够支持DisplayPort接口的液晶显示器的需求逐渐的增加。

显示器三连屏

从性能上讲，DisplayPort 1.1最大支持10.8Gb/S的传输带宽，而最新的HDMI 1.3标准也仅能支持10.2G/s的带宽;另外，DisplayPortisplayPort可支持WQXGA+(2560×1600)、QXGA(2048×1536)等分辨率及30/36bit(每原色10/12bit)的色深，1920×1200分辨率的色彩支持到了120/24Bit，超高的带宽和分辨率完全足以适应显示设备的发展。

三连屏要DP接口

DisplayPort赢得了AMD、Intel、NVIDIA、戴尔、惠普、联想、飞利浦、三星等业界巨头的支持，而且它是免费使用的，不像HDMI那样需要高额授权费。AMD的路线图显示，该公司将在今年底明年初开始支持DisplayPort，以代替HDMI。虽然支持HDMI接口的设备种类繁多，但是对于这部分设备而言，HDMI接口仅仅是一个更加便捷的驳接方式，并没有其余的应用性。而对于 DisplayPort接口而言，由于AMD在HD5000系列显卡上开发的多屏拼接技术的支持，并且必须有DisplayPort传输主显示器的信号，强大的接口对发烧友们还是非常有吸引力的。

影响显卡速度和效率的因素

DirectX和OpenGLDirectX和OpenGL都是应用程序编程接口，简称API。API提供用于复杂任务(例如三维渲染)的指令，以此帮助软硬件更高效地通信。开发人员针对特定的API来优化大量使用图形的游戏。这就是最新的游戏通常需要DirectX或OpenGL的更新版才能正确运行的原因。

API不同于驱动程序。驱动程序是使硬件可以与电脑的操作系统进行通信的程序。但如同更新版的API一样，更新版的设备驱动程序可以帮助程序正确运行。

如何衡量显卡好坏?

顶级显卡很容易辨认，它应该具有大量内存和速度很快的处理器。此外，与其他任何要安装到电脑机箱中的部件相比，它通常是最令人关注的。很多高性能显卡都声称需要或直接配备了外形夸张的风扇或散热器。

但高端显卡提供的功能超出了大多数人的真实需要。对于主要使用电脑来收发电子邮件、从事文字处理或上网冲浪的用户来说，带有集成显卡的主板便能够提供所有必要的图形功能。对于大多数偶尔玩游戏的用户来说，中端显卡已经足以满足需要。只有游戏迷和那些需要完成大量三维图形工作的用户才需要高端显卡。

显卡性能的一个很好的整体衡量标准是它的帧速，它是以每秒的帧数(FPS)为单位加以衡量的。帧速说明了显卡每秒钟能显示多少幅完整的图像。人眼的处理能力约为每秒25帧，而动感快速的游戏至少需要60FPS的帧速才能提供平滑的动画和滚动。影响帧速的因素包括：每秒生成的三角形数或顶点数三维图像是由三角形或多边形组成的。这项指标说明了GPU能够以多快的速度计算整个多边形或对该多边形进行定义的顶点。一般而言，它说明了显卡能以多快的速度生成线框图像。

像素填充速率：这项指标说明了GPU一秒钟内能处理多少个像素，从而也就说明了显卡能以多快的速度对图像进行光栅化处理。显卡的硬件对其速度具有直接影响。以下是对显卡速度影响最大的硬件性能指标及其衡量单位：GPU时钟速度(MHz)、内存总线的容量(位)、可用内存的数量(MB)、内存时钟速率(MHz)内存带宽(GB/s)、RAMDAC速度(MHz)。

电脑的CPU和主板也对显卡速度有一定影响，因为非常快速的显卡并不能弥补主板在快速传输数据方面的能力的不足。同样，显卡与主板之间的连接以及它从CPU获取指令的速度都会影响其性能。

超频有些用户选择将自己显卡的时钟速度手动设置为更高的速率，以此来提高显卡的性能，这称为超频。人们通常选择对显卡的内存进行超频，因为对GPU进行超频可能会导致过热。虽然超频可以获得更好的性能，但它也会使制造商的质保失效。

显卡主要参数术语解释：

GPU

显示芯片又称图型处理器-GPU，它在显卡中的作用，就如同CPU在电脑中的作用一样。更直接的比喻就是大脑在人身体里的作用。GPU使显卡减少了对CPU的依赖，并进行部分原本CPU的工作，尤其是在3D图形处理时。GPU所采用的核心技术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等，而硬件T&L技术可以说是GPU的标志。GPU的生产主要由nVidia与ATI两家厂商生产。

常见的生产显示芯片的厂商：Intel、ATI、nVidia、VIA(S3)、SIS、Matrox、3D Labs。

Intel、VIA(S3)、SIS 主要生产集成芯片;

ATI、nVidia 以独立芯片为主，是目前市场上的主流。

Matrox、3D Labs 则主要面向专业图形市场。

由于ATI和nVidia基本占据了主流显卡市场，下面主要将主要针对这两家公司的产品做介绍。

开发代号

所谓开发代号就是显示芯片制造商为了便于显示芯片在设计、生产、销售方面的管理和驱动架构的统一而对一个系列的显示芯片给出的相应的基本的代号。开发代号作用是降低显示芯片制造商的成本、丰富产品线以及实现驱动程序的统一。

一般来说，显示芯片制造商可以利用一个基本开发代号再通过控制渲染管线数量、顶点着色单元数量、显存类型、显存位宽、核心和显存频率、所支持的技术特性等方面来衍生出一系列的显示芯片来满足不同的性能、价格、市场等不同的定位，还可以把制造过程中具有部分瑕疵的高端显示芯片产品通过屏蔽管线等方法处理成为完全合格的相应低端的显示芯片产品出售，从而大幅度降低设计和制造的难度和成本，丰富自己的产品线。同一种开发代号的显示芯片可以使用相同的驱动程序，这为显示芯片制造商编写驱动程序以及消费者使用显卡都提供了方便。

制造工艺

制造工艺指得是在生产GPU过程中，要进行加工各种电路和电子元件，制造导线连接各个元器件。通常其生产的精度以nm(纳米)来表示(1mm=1000000nm)，精度越高，生产工艺越先进。在同样的材料中可以制造更多的电子元件，连接线也越细，提高芯片的集成度，芯片的功耗也越小。

微电子技术的发展与进步，主要是靠工艺技术的不断改进，使得器件的特征尺寸不断缩小，从而集成度不断提高，功耗降低，器件性能得到提高。芯片制造工艺在1995年以后，从0.5微米、0.35微米、0.25微米、0.18微米、0.15微米、0.13微米、0.09微米，再到主流的65纳米、55纳米、40纳米。

核心频率

显卡的核心频率是指显示核心的工作频率，其工作频率在一定程度上可以反映出显示核心的性能，但显卡的性能是由核心频率、流处理器单元、显存频率、显存位宽等等多方面的情况所决定的，因此在显示核心不同的情况下，核心频率高并不代表此显卡性能强劲。比如GTS250的核心频率达到了750MHz，要比GTX260+的576MHz高，但在性能上GTX260+绝对要强于GTS250。在同样级别的芯片中，核心频率高的则性能要强一些，提高核心频率就是显卡超频的方法之一。

显卡BIOS

显卡BIOS主要用于存放显示芯片与驱动程序之间的控制程序，另外还存有显示卡的型号、规格、生产厂家及出厂时间等信息。打开计算机时，通过显示BIOS内的一段控制程序，将这些信息反馈到屏幕上。早期显示BIOS是固化在ROM中的，不可以修改，而多数显示卡则采用了大容量的EPROM，即所谓的FlashBIOS，可以通过专用的程序进行改写或升级。

显存

显示内存的简称。顾名思义，其主要功能就是暂时将储存显示芯片要处理的数据和处理完毕的数据。图形核心的性能愈强，需要的显存也就越多。以前的显存主要是SDR的，容量也不大。市面上的显卡大部分采用的是GDDR3显存，现在最新的显卡则采用了性能更为出色的GDDR4或GDDR5显存。显存主要由传统的内存制造商提供，比如三星、现代、Kingston等。显卡上采用的显存类型主要有SDRAM ,DDRSDRAM，DDRSGRAM、DDR2、DDR3、DDR4。

DDRSGRAM是显卡厂商特别针对绘图者需求，为了加强图形的存取处理以及绘图控制效率，从同步动态随机存取内存(SDRAM)所改良而得的产品。SGRAM允许以方块(Blocks)为单位个别修改或者存取内存中的资料，它能够与中央处理器(CPU)同步工作，可以减少内存读取次数，增加绘图控制器的效率，尽管它稳定性不错，而且性能表现也很好，但是它的超频性能很差。

显存位宽

显存位宽是显存在一个时钟周期内所能传送数据的位数，位数越大则瞬间所能传输的数据量越大，这是显存的重要参数之一。2009年市场上的显存位宽有64位、128位、256位和512位几种，人们习惯上叫的64位显卡、128位显卡和256位显卡就是指其相应的显存位宽。显存位宽越高，性能越好价格也就越高，因此512位宽的显存更多应用于高端显卡，而主流显卡基本都采用128和256位显存。

显存带宽=显存频率X显存位宽/8，在显存频率相当的情况下，显存位宽将决定显存带宽的大小。显卡的显存是由一块块的显存芯片构成的，显存总位宽同样也是由显存颗粒的位宽组成。显存位宽=显存颗粒位宽×显存颗粒数。显存颗粒上都带有相关厂家的内存编号，可以去网上查找其编号，就能了解其位宽，再乘以显存颗粒数，就能得到显卡的位宽。

显存速度

显存速度一般以ns(纳秒)为单位。常见的显存速度有1.2ns、1.0ns、0.8ns等，越小表示速度越快、越好。显存的理论工作频率计算公式是：等效工作频率(MHz)=1000/(显存速度×n)(n因显存类型不同而不同，如果是GDDR3显存则n=2;GDDR5显存则n=4)。

显存频率

显存频率一定程度上反应着该显存的速度，以MHz(兆赫兹)为单位，显存频率随着显存的类型、性能的不同而不同;DDRSDRAM显存则能提供较高的显存频率，因此是采用最为广泛的显存类型，无论中、低端显卡，还是高端显卡大部分都采用DDRSDRAM，其所能提供的显存频率也差异很大，主要有400MHz、500MHz、600MHz、650MHz等，高端产品中还有800MHz或900MHz，乃至更高。

流处理器单元

在DX10显卡出来以前，并没有“流处理器”这个说法。GPU内部由“管线”构成，分为像素管线和顶点管线，它们的数目是固定的。简单来说，顶点管线主要负责3D建模，像素管线负责3D渲染。由于它们的数量是固定的，这就出现了一个问题，当某个游戏场景需要大量的3D建模而不需要太多的像素处理，就会造成顶点管线资源紧张而像素管线大量闲置，当然也有截然相反的另一种情况。

在这样的情况下，人们在DX10时代首次提出了“统一渲染架构”，显卡取消了传统的“像素管线”和“顶点管线”，统一改为流处理器单元，它既可以进行顶点运算也可以进行像素运算，这样在不同的场景中，显卡就可以动态地分配进行定点运算和像素运算的流处理器数量，达到资源的充分利用;现在，流处理器的数量的多少已经成为了决定显卡性能高低的一个很重要的指标，Nvidia和AMD-ATI也在不断地增加显卡的流处理器数量使显卡的性能达到跳跃式增长，值得一提的是，N卡和A卡GPU架构并不一样，对于流处理器数的分配也不一样。

双卡技术

SLI和CrossFire分别是Nvidia和ATI两家的双卡或多卡互连工作组模式.其本质是差不多的.只是叫法不同，SLIScanLineInterlace(扫描线交错)技术是3dfx公司应用于Voodoo上的技术，它通过把2块Voodoo卡用SLI线物理连接起来，工作的时候一块Voodoo卡负责渲染屏幕奇数行扫描，另一块负责渲染偶数行扫描，从而达到将两块显卡“连接”在一起获得“双倍”的性能。SLI中文名速力，到2009年SLI工作模式与早期Voodoo有所不同，改为屏幕分区渲染。

分类

集成显卡是将显示芯片、显存及其相关电路都做在主板上，与主板融为一体;集成显卡的显示芯片有单独的，但现在大部分都集成在主板的北桥芯片中;一些主板集成的显卡也在主板上单独安装了显存，但其容量较小，集成显卡的显示效果与处理性能相对较弱，不能对显卡进行硬件升级，但可以通过CMOS调节频率或刷入新BIOS文件实现软件升级来挖掘显示芯片的潜能;集成显卡的优点是功耗低、发热量小、部分集成显卡的性能已经可以媲美入门级的独立显卡，所以不用花费额外的资金购买显卡。

独立显卡是指将显示芯片、显存及其相关电路单独做在一块电路板上，自成一体而作为一块独立的板卡存在，它需占用主板的扩展插槽(ISA、PCI、AGP或PCI-E。独立显卡单独安装有显存，一般不占用系统内存，在技术上也较集成显卡先进得多，比集成显卡能够得到更好的显示效果和性能，容易进行显卡的硬件升级;其缺点是系统功耗有所加大，发热量也较大，需额外花费购买显卡的资金。独立显卡成独立的板卡存在，需要插在主板的相应接口上，独立显卡具备单独的显存，不占用系统内存，而且技术上领先于集成显卡，能够提供更好的显示效果和运行性能。

软件配置

1)DirectX

DirectX并不是一个单纯的图形API，它是由微软公司开发的用途广泛的API，它包含有Direct Graphics(Direct 3D+Direct Draw)、Direct Input、Direct Play、Direct Sound、Direct Show、Direct Setup、Direct MediaObjects等多个组件，它提供了一整套的多媒体接口方案。只是其在3D图形方面的优秀表现，让它的方面显得暗淡无光。DirectX开发之初是为了弥补Windows 3.1系统对图形、声音处理能力的不足，而今已发展成为对整个多媒体系统的各个方面都有决定性影响的接口。最新版本为DirectX 11。

Direct3D(简称D3D)

DirectX是微软开发并发布的多媒体开发软件包，其中有一部分叫做Direct3D。大概因为是微软的手笔，有的人就说它将成为3D图形的标准。

2)OpenGL

OpenGL是OpenGraphicsLib的缩写，是一套三维图形处理库，也是该领域的工业标准。计算机三维图形是指将用数据描述的三维空间通过计算转换成二维图像并显示或打印出来的技术。OpenGL就是支持这种转换的程序库，它源于SGI公司为其图形工作站开发的IRIS GL，在跨平台移植过程中发展成为OpenGL。SGI在1992年7月发布1.0版，后成为工业标准，由成立于1992年的独立财团OpenGL Architecture Review Board (ARB)控制。SGI等ARB成员以投票方式产生标准，并制成规范文档(Specification)公布，各软硬件厂商据此开发自己系统上的实现。只有通过了ARB规范全部测试的实现才能称为OpenGL。1995年12月ARB批准了1.1版本，最新版规范是在SIGGRAPH2007公布的OpenGL 3.0。

NV/ATI上演铁面双雄

踏入2001年以後，如同桌面处理器市场的Intel和AMD一样，显卡市场演变为nVidia与ATI两雄争霸的局势。nVidia方面，凭借刚刚推出的Geforce 3系列占据了不少市场，Geforce 3 Ti 500，Geforce 2 Ti和Geforce 3Ti，Geforce MX分别定位于高中低三线市场。与GeForce2系列显卡相比，GeForce3显卡最主要的改进之处就是增加了可编程T&L功能，能够对几乎所有的画面效果提供硬件支持。GeForce 3总共具有4条像素管道，填充速率最高可以达到每秒钟800 Mpixels。Geforce 3系列还拥有nfiniteFX顶点处理器、nfiniteFX像素处理器以及Quincunx抗锯齿系统等技术。

而作为与之相抗衡的ATI Radeon 8500/7500系列，采用0.15微米工艺制造，包括6000万个晶体管，采用了不少新技术(如Truform、Smartshader等)。并根据显卡的核心/显存工作频率分成不同的档次——核心/显存分别为275/550MHz的标准版，核心/显存为250/500MHz的RADEON 8500LE，生产核心/显存频率分别为300/600MHz的Ultra版，以及中端的Radeon 7500，低端的Radeon 7200，7000等产品。值得一提的是Radeon 8500还支持双头显示技术。

2002年，nVidia与ATI的竞争更加白热化。为巩固其图形芯片市场霸主地位，nVidia推出了Geforce 4系列，分别为GeForce4 Ti4800，GeForce4 Ti 4600, GeForce4 Ti4400, GeForce4 Ti4200，GeForce4 MX460, GeForce4 MX 440 和 GeForce4 MX 420。GeForce4 Ti系列无疑是最具性价比的，其代号是NV25，它主要针对当时的高端图形市场，是DirectX 8时代下最强劲的GPU图形处理器。芯片内部包含的晶体管数量高达6千3百万，使用0.15微米工艺生产，采用了新的PBGA封装，运行频率达到了300MHz，配合频率为650MHz DDR显存，可以实现每秒49亿次的采样。GeForce4 Ti核心内建4条渲染流水线，每条流水线包含2个TMU(材质贴图单元)。Geforce 4系列从高到低，横扫了整个显卡市场。

作为反击，ATI出品了R9700/9000/9500系列，首次支持DirectX 9，使其在与NVidia的竞争中抢得先机。而R9700更是在速度与性能方面首次超越NVidia。R9700支持AGP 8X、DirectX 9，核心频率是300MHz，显存时钟是550MHz。RADEON 9700，实现了可程序化的革命性硬件架构。符合绘图回事商品AGP 8X最新标准，配有8个平等处理的彩绘管线，每秒可处理25亿个像素，4个并列的几何处理引擎更能处理每秒3亿个形迹及光效多边形。而R9000是面向低端的产品，R9500则直挑Ti4200。

同年，SiS发布了Xabre系列。它是第一款AGP 8×显卡，全面支持DirectX 8.1，在发布之时是相当抢眼的。Xabre系列图形芯片采用0.15微米工艺，具备4条像素渲染流水线，并且每条流水线拥有两个贴图单元。理论上可提供高达1200M Pixels/s的像素填充率和2400M Texels/s的材质填充率。随後发布的Xabre600，采用0.13微米工艺，主频和显存频率都提高了不少，性能与GeForce4 Ti4200差不多。

2003年的显卡市场依旧为N系与A系所统治。nVidia的Gf FX 5800(NV30)系列拥有32位着色，颜色画面有质的提高，在基础上推出的GeForce FX 5900，提高了晶体管数，降低了核心频率与显存频率，改用了256B99v DDR以提高了显存带宽。後半年还推出了GF FX 5950/5700系列，以取代GF FX 5900/5600。而ATI推出了RADEON 9800/pro/SE/XT，凭借其超强的性能以及较价的售价，再次打败GF GX 5800。这一年市场上的主流产品还有GF FX5600，GF FX5200和RADEON 9600和RADEON 9200。

2004年也是ATI大放异彩的一年，不过其最大的功臣却是来自于面向中低端的Radeon 9550。这款2004年最具性价比的显卡，让ATI在低端市场呼风唤雨。R9550基于RV350核心，采用0.13微米制程，核心频率为250MHz，显存频率为400MHz，4条渲染管道，1个纹理单元，同时兼容64bit和128bit。这款产品是9600的降频版，但是通过改造，都可以变成R9600，性价比极强。而老对手的N卡方面，却只推出了一款新品GF FX 5900XT/SE，而与R9550处于同一竞争线的5200，5500与5700LE系列，虽然性能不错，可惜价格却没有优势，被R9550彻底打败。2004年让nVidia郁闷了一整年。

ATi从05年开始就一直被Nvidia压制，无论是1950XTX对抗7900GTX，2900XT对抗8800GTX,3870X2对抗9800GX2，在旗舰产品上，ATi一直属于劣势，但在2008年6月发生了转机，ATi发布了RV770，无论是从市场定价还是从性能上都是十分让人满意的，特别是改善了A卡在AA上的性能不足，RV770的中端4850的价格更是让Nvidia措手不及，无奈在一周内9800GTX降价1000元，但无论是性能还是价格依旧挡不住4850的攻势，4870紧接着发布，采用DDR5显存的RV770浮点运算能力更是达到了1TB/S，Nvidia发布的新核心GT200的旗舰版本GTX280虽然在性能上暂时取得了暂时的领先，但是和4870相比只有10%的性能差距，而且由于工艺较落后，导致成本过高，没有性价比，就在人们以为ATi放弃旗舰，准备走性价比路线时，ATi推出了R700，也就是4870X2，并且大幅度改良了桥接芯片的性能，领先GTX280高达50-80%，而GTX280的核心面积已经大的恐怖，不可能衍生出单卡双芯，所以ATi依靠单卡双芯重新夺得了性能之王。但是在2009年初，Nvidia凭借其新推出的GTX295，重新夺回显卡性能之王宝座。

将近十年后，如何评价AMD收购ATi?

2006年年中的时候，AMD收购ATi，到现在差不多10年多了。

正好是AMD最辉煌时期的尾声，之后在Intel Core系列的反击下过得日益艰难。

那之前AMD的U+NV的板也是一套经典又不贵的组合，但收购ATi以后AMD可以说就和nVidia反目成仇了。

AMD当初市值应该在20B以上，Ati当时市值4B，然后NV在8B左右，当初5.4B收购ATi，然后现在AMD一共2.4B。这么看AMD收购是极度失败的。

关于CPU：当初06年的时候AMD的处理器架构为K8，而Intel则为Netburst(比如饱受诟病的Prescott)，K8相对于Intel在CPU上有一定优势，但是intel一路从Banias-Dothan-Yonah一路走到了Merom情况就变了，其实Yonah时靠短流水线和较短的指令周期性能就很好看了，之后Core2更是做到了四发射，而AMD的K8L失败了。找了下Layout/Dieshot

从上到下分别是K8 K8L设想 K10，看出了什么?K8三个Micro Code ROM K8L和K10分别是4个，当初AMD应该想过做4发射处理器但是失败了，于是感觉Phenom这些都是残次品，原因可能和AMD收购ATi没那么多财力来做有关吧。从技术上说当初收了DEC的工程师借鉴Alpha 21264做了K7，如果借鉴21464做出4发射也不是不可能。XD。感觉收购ATi之后AMD的产总给人一种不完全的感觉，K10这个残次品不说了，K10.5的话主要是改进了缓存延迟和TLB、内存控制器，推土机虽然有新意引入了CMT，但是硬件除法器坏的，而且性能也不是很好看。长流水线跑高频也因为Prescott的黑历史一直被黑，不过推土机系列的功耗的确很难看，9590的220w太吓人了。12年AMD出售 GlobalFoundries成为Fabless厂，14年又将芯片组委托给阿苏斯下面的祥硕，然后专心做芯片业务。

如果AMD晚两年收购ATI，等K8L出来了再收购历史会不会有很大变化。不过也就这样了。

关于芯片组：NV在09年之后就不给intel和AMD出相应的芯片组了，因为没利益，当然ION平台多撑了几天(说是明年愚人节就停止支持了)。早年不只是intel ati 还有sis via等厂商也提供芯片组后来因为利益也都退出or不在主流市场了。AMD收购ATi的确在发展中起到一定作用，比如CF还有Spider平台，但是意义不大，而且当初SB600之类可怜的磁盘性能，知道APU的AXX出现才有改观。

关于显卡和APU：AMD显卡部分还是AMD盈利的主要部分(不过就市场而言只在2010年超过NVIDIA一段时间也就是HD5XXX)，如果AMD CPU做不好还不收购ATi不知道AMD会死的多惨。战略上的话出售Imageon有点没远见了，貌似K12上要上GCN? 依靠AMD和ATI在CPU和GPU技术上的优势，AMD早早提出了Fusion，但AMD不是一个很好的执行者，当初发布了FireStream计算卡和Stream工具竞争NVidia的CUDA，当初看CAL和Brook应该是有优势的，但是AMD的推广和驱动…………完全就是自己作死。然后ATi在被收购后再也没有9700Pro那种辉煌了，虽然HD4870 HD5870之类销量喜人。APU的话，让intel抢先了，而且CPU做的不给力功耗不好看，移动平台上四核i7的功耗，低压i3的性能，完全不能忍，UltraThin本概念也没玩好，之前APU做的除了性价比别的并不好，现在的话由于带宽压缩技术和未来的DDR4 还有HSA等，下一代APU应该会在以后有较好的表现/潜力。看AMD Research关于HBM在APU上的应用，在14nm制程上APU才能完全体吧。

AMD之前还出过AMD内存 AMD SSD(OCZ)等产品，除了充值信仰感觉没啥用了。总的来说AMD收购ATi肯定是其发展路线的重要一步，但是这步我认为走的太早，然后造成了之后10年的颓势。目前AI火热，英伟达顺风顺水，不知道AMD是否可以卷土重来?

NVIDIA：未来GPU才是PC的核心部件

NVIDIA提出了“GPGPU(通用图形处理器)” 概念，和CPU相比，GPU具有更强的浮点运算能力、更大的带宽等诸多优势，连晶体管数量都是GPU略胜一筹。性能和复杂性不断提升的GPU自然不甘继续做CPU的配角，NVIDIA首席执行官兼总裁黄仁勋甚至毫不掩饰地提出：“未来GPU将越来越多地取代CPU的数据处理职能，未来GPU才是计算机的核心部件!”