当前位置:首页 > 嵌入式 > wenzi嵌入式软件
[导读]笔者能力有限,如果文章出现错误的地方欢迎各位朋友能够给我指出来,我将不胜感激,谢谢~ 前言 在之前的两篇文章中,在 程序是如何在 CPU 中运行的(一)中讲述了一条一条指令和数据是如何在 CPU 中被运行的,在 程序是如何在 CPU 中运行的 (二)中以 PC 寄

笔者能力有限,如果文章出现错误的地方欢迎各位朋友能够给我指出来,我将不胜感激,谢谢~

前言

在之前的两篇文章中,在 程序是如何在 CPU 中运行的(一)中讲述了一条一条指令和数据是如何在 CPU 中被运行的,在 程序是如何在 CPU 中运行的 (二)中以 PC 寄存器为中心,从汇编语言的角度阐述了程序是如何在 CPU 中有序执行的,该篇文章讲述流水线机制在 CPU 中的应用。

相关概念

在进入流水线的讲解之前,有必要知道两个概念,一个是指令周期,一个是时钟周期。

  • 指令周期:指令周期的意思从其名称就能看出来,就是运行一条指令的时间,笔者在该系列文章的第一篇中说到一条指令的运行能够大致分为三个阶段:取指 -> 译码 -> 执行,也就是说这三个阶段执行的总的时间就是指令周期,也可以用下面这样的一张图表示,循环的执行取指,译码,执行的周期就称之为指令周期。

    指令周期
  • 时钟周期:时钟周期就是我们 CPU 的主频,也就是晶振带来的每一次“滴答”,就是时钟周期时间。
    了解了这两个概念之后,我们首先来看单指令周期处理器。

单指令周期处理器

在引入流水线机制之前,先来看看单指令周期处理器,之所以称之为单指令周期处理器,是因为这样机制的处理器在运行一条指令的时候,从取指到译码到执行,不能有第二条指令的加入,也就是说如果前后有两条指令需要运行,那第二条指令的运行必须等待第一条指令运行完毕之后才能得到运行。
前文所述一条指令大致可以分为三个阶段执行,而这个过程的执行,至少都需要一个时钟周期,因为在取指的时候我们的 PC 指针寄存器在一个时钟周期的驱动下递增,从而实现下一条指令的取指,同样的,为了尽可能地提高 CPU 效率,我们也希望指令的运行能够在一个时钟周期内完成,既然所有的指令的运行都在一个时钟周期内运行,但是指令各有不同,有的指令执行的时间长,有的指令执行的时间短,因此,为了兼顾所有指令都能够得到运行,那么时钟周期就应该满足执行时间最长的指令的运行,下面展示了三条不同的指令在一个时钟周期内所占的时间。

单指令周期处理器


通过上图我们可以明显的看到采用单指令周期机制的弊端,时钟周期受到最长执行时间指令的影响,而对于执行时间较短的指令来说,又会有大部分时间处于啥也干不了的状态,浪费了资源,这样的机制虽然使得每一条指令都在一个时钟周期内就执行完毕了,但是也降低了 CPU 的主频,因为如果太高的话,有些复杂的指令就不能执行完。
基于此,也就有了流水线技术的出现。

流水线设计

流水线的概念来源于工业制造领域,可以以汽车装配为例子来解释流水线的工作方式,假设装配一辆汽车需要四个步骤:冲压 -> 焊接 -> 涂装 -> 总装,最简单的方式就是先装配一辆汽车,装配完一辆之后,在装下一辆,这样的方式就类似我们上述讲的单指令周期处理器的工作方式。所以为了使得工作效率提高,人们提出了流水线的工作方式,也就是说当第一辆汽车装配到第二道工序(焊接)的时候,第二辆汽车开始第一道工序(冲压),这样也就不会使得第一辆汽车装配完了之后才装配第二辆汽车,大大地提高了工作效率。
那么 CPU 又是如何以流水线机制运行的呢?我们在前文一直在涉及到一个概念,就是说一条指令的运行大致可以分为三个阶段:取址 ->译码 -> 执行,在这里我们将其再进行细分,因为在整个的执行过程中,还包括从寄存器或者内存中读取数据,通过 ALU 进行计算,再将结果写回到寄存器或者内存中,所以,也就是说一条指令的运行也可以细分为五个阶段,如下图所示:

指令执行过程


这细分的各个步骤就像汽车装配的各个工序,在单指令周期中,必须等一条指令运行完上述所有的步骤之后,才进行下一条指令的运行,但是引入流水线之后,当第一条指令执行到第二个步骤(译码)的时候,第二条指令就可以执行第一个步骤(取指)了,详细地运行步骤如下图所示:

流水线执行示意图


通过上图可以很清楚地看到指令流水线的执行过程,这里要指出的一点是由于上图将一条指令的执行过程拆分成了五个步骤来执行,所以上述所示的流水线也被称之为五级流水线,在图中我们可以看到取指和译码两个步骤不是紧挨着的,这是因为译码这个步骤执行的时间要短于取指执行的时间,所以在执行译码之前要等待一会儿。另外,图中,笔者用红色箭头标注了一个时钟周期所对应的指令,可以看到在这个时钟周期里运行着五条指令的不同阶段。因此,对于五级流水线的定义也可以是这样的:五级的流水线,就表示我们在同一个时钟周期里面,同时运行五条指令的不同阶段。至此,关于流水线的基本概念就介绍完了,下面,我们来看一下,使用流水线相和单指令周期运行同样的指令的差异。

单指令周期和流水线的比较

首先,我们看这样一个例子,我们顺序执行三条指令:

  1. 一条整数的加法,需要 200ps

  2. 一条整数的乘法,需要 300ps

  3. 一条浮点数的乘法,需要 600ps

根据前文所述,单指令周期处理器的时钟周期取决于执行时间最长的指令,在这里也就是 600 ps,那么在单指令周期下三条指令的执行过程是这样的:

单指令周期执行示意图


通过上图我们可以看到受到最长执行时间指令的影响,现在的时钟周期为 600ps,并且由于是单指令周期,指令的执行必须执行完第一条之后才能执行第二条,因此,执行完三条指令的时间是 1800 ps。
我们接下来看有流水线技术后,指令的执行时间是多少,为了使得图更加直观,这里采用6级流水线,时钟周期定为 100 ps,执行示意图如下:

流水线执行示意图


通过上图可以看到流水线技术的引入使得指令的运行不必等待上一条指令完全执行完才执行下一条指令,从花费的时间上看 6 级流水线执行三条指令花费了 800 ps,而单指令周期处理器却花费了 1800 ps,可见差距是巨大的。

嵌入式处理器流水线

上述便是关于单指令周期和流水线的大致内容,那在嵌入式中常用的处理器又是怎么一回事呢,我们拿我们经常接触的 ARM Cortex M3 的处理器来说,下图是笔者在权威指南中看到的一张图:

Cortex-M3 的三级流水线


从图中我们可以看到,Cortex-M3处理器是三级流水线,在指令的运行过程中,处理器将其分为 取指 -> 译码 -> 执行 三个步骤。而我们常见的 51 单片机在运行时是没有流水线的,也可以理解为单流水线。

总结

上述就是关于流水线技术和单指令周期的相关内容,当然这只是很小的一部分,真实的处理器上的流水线远远不止如此,还会涉及到其他的处理,比如分支预测,乱序执行等等,详细系统的知识还得学习计算机组成原理的相关内容,这次的分享就到这里啦~

您的在看是最我最大的鼓励,您的建议是对我最大的提升,欢迎点击下方图片进入小程序进行评论



免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除( 邮箱:macysun@21ic.com )。
换一批
延伸阅读

在数字电路的庞大体系中,加法器是最基础却又至关重要的运算单元。从简单的计算器到复杂的CPU,加法器如同数字世界的“基石”,支撑着几乎所有的算术运算。无论是日常生活中购物时的金额计算,还是航天领域中精密的轨道运算,背后都离...

关键字: 加法器 CPU

在多线程编程的世界里,死锁就像潜伏在代码中的幽灵,时不时就会出来作祟。它让线程们陷入互相等待的僵局,程序看似运行却毫无进展,CPU使用率骤降,排查起来更是让人头疼不已。GDB(GNU调试器)作为Linux平台下的调试利器...

关键字: GDB CPU

在Linux操作系统中,进程管理是核心功能之一,而进程调度与切换则是保障系统高效、稳定运行的关键机制。它们决定了CPU资源如何分配给各个进程,直接影响着系统的响应速度、吞吐量和公平性。

关键字: Linux CPU

在数字化浪潮席卷全球的当下,物联网、嵌入式系统与单片机这三个技术名词频繁出现在科技报道、产业论坛以及校园课堂中。它们看似独立,实则紧密相连,共同构成了推动智能时代发展的核心技术链条。从智能家居里自动调节温度的空调,到工业...

关键字: 单片机 CPU

随着端侧AI和高性能计算需求的快速增长,处理器产业的分工模式正在发生变化。近期,Arm 已发布其自研AI芯片,这一动向也让产业对IP模式的开放性与生态中立性产生了更多关注。

关键字: SoC RISC-V CPU

在嵌入式系统发展历程中,51单片机与STM32单片机无疑是两个具有里程碑意义的产品。诞生于上世纪80年代的51单片机,凭借简单易用、成本低廉的特性,成为无数开发者的入门导师,推动了嵌入式技术的普及;而2003年问世的ST...

关键字: 单片机 CPU

4月2日,在海光信息2026年春季技术沟通会上,海光信息正式公开基于“内生安全”理念的一大批新技术、新成果,并首发海光DCU软件栈年度版本,为业界清晰地描绘出海光双芯产品(CPU、DCU)推动国产万亿大模型研发、加速各行...

关键字: 大模型 CPU DCU

北京2026年4月2日 /美通社/ -- 3月31日,2026年度中国IC设计成就奖在上海举办的国际集成电路展览会暨研讨会期间隆重颁布。作为兆芯面向人工智能、云计算、数据中心、高密度存储等前沿技术与核心应用打造的新一代自...

关键字: IC设计 处理器 CPU 通用处理器

由台达集团于2026年3月29日通过美通社发布新闻稿《集装箱式SST直流移动智算中心发布》中,第3张有误,已进行替换。特此更正,更新后的全文及图片如下: 集装箱式SST直流移动智算中心发布 台达、汉腾科技、龙芯中科携...

关键字: 移动 ST 固态变压器 CPU

面对AI Agent与Physical AI的浪潮,单纯依靠增加GPU或NPU的补丁式方案已难以为继,CPU架构必须进行面向AI的底层重塑。 阿里达摩院发布的玄铁C950旗舰处理器,不仅刷新了单核性能纪录,更通过原生A...

关键字: 玄铁C950 CPU AI 物理AI RISC-V
关闭